[mephi-hpc] ошибка на кластере Черенков при запуске и просмотре задач

anikeev anikeev at ut.mephi.ru
Wed Jan 15 11:07:05 MSK 2020


On Tue, 2020-01-14 at 14:31 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!

Добрый день!

> А посмотрите, пожалуйста, на кластере Черенков перестали задачи
> запускаться, менеджер задач дает сообщения типа: slurmstepd-n206:
> error: Unable to send job complete message: Unable to contact slurm
> controller (connect failure) и посмотреть (squeue) задачи тоже
> нельзя: slurm_load_jobs error: Unable to contact slurm controller
> (connect failure).

Аварийно завершился процесс менеджера ресурсов Slurm. Исправил, добавил
следящую автоматику.

> С уважением,
> Алексей Богданов
>  
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list