[mephi-hpc] статус задач launch failed requeued held

anikeev anikeev at ut.mephi.ru
Fri Dec 3 19:48:50 MSK 2021


On Fri, 2021-12-03 at 15:07 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!

Здравствуйте!

> Часть запущенных на выполнение задач на кластере Uniclusterработает,
> а часть - получила статус “launch failed requeued held”.  Не совсем
> понятно почему так произошло (все задачи запускались одинаково) и что
> с ними делать.

Произошла авария на дисковой подсистеме узла n3, по причине которой
узел некоторое время функционировал некорректно. Попавшие на него
задачи ошибочно распознавались Slurm как незапустившиеся на исправном
узле (launch failed) и блокировались (requeued held).

Авария исправлена. Задачи разблокированы. Прошу прощения за
доставленные неудобства.
 
> С уважением,
> Алексей Богданов
>  
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc

-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998



More information about the hpc mailing list