[mephi-hpc] ошибка на кластере Черенков при запуске и просмотре задач
anikeev
anikeev at ut.mephi.ru
Wed Jan 15 11:07:05 MSK 2020
On Tue, 2020-01-14 at 14:31 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!
Добрый день!
> А посмотрите, пожалуйста, на кластере Черенков перестали задачи
> запускаться, менеджер задач дает сообщения типа: slurmstepd-n206:
> error: Unable to send job complete message: Unable to contact slurm
> controller (connect failure) и посмотреть (squeue) задачи тоже
> нельзя: slurm_load_jobs error: Unable to contact slurm controller
> (connect failure).
Аварийно завершился процесс менеджера ресурсов Slurm. Исправил, добавил
следящую автоматику.
> С уважением,
> Алексей Богданов
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
More information about the hpc
mailing list