[mephi-hpc] ошибка на кластере Черенков при запуске и просмотре задач

Богданов Алексей Георгиевич AGBogdanov at mephi.ru
Wed Jan 15 11:27:07 MSK 2020


Спасибо!


-----Original Message-----
From: hpc [mailto:hpc-bounces at lists.mephi.ru] On Behalf Of anikeev
Sent: Wednesday, January 15, 2020 11:07 AM
To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>
Subject: Re: [mephi-hpc] ошибка на кластере Черенков при запуске и просмотре задач

On Tue, 2020-01-14 at 14:31 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!

Добрый день!

> А посмотрите, пожалуйста, на кластере Черенков перестали задачи 
> запускаться, менеджер задач дает сообщения типа: slurmstepd-n206:
> error: Unable to send job complete message: Unable to contact slurm 
> controller (connect failure) и посмотреть (squeue) задачи тоже
> нельзя: slurm_load_jobs error: Unable to contact slurm controller 
> (connect failure).

Аварийно завершился процесс менеджера ресурсов Slurm. Исправил, добавил следящую автоматику.

> С уважением,
> Алексей Богданов
>  
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
_______________________________________________
hpc mailing list
hpc at lists.mephi.ru
https://lists.mephi.ru/listinfo/hpc


More information about the hpc mailing list