[mephi-hpc] статус задач launch failed requeued held
anikeev
anikeev at ut.mephi.ru
Fri Dec 3 19:48:50 MSK 2021
On Fri, 2021-12-03 at 15:07 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!
Здравствуйте!
> Часть запущенных на выполнение задач на кластере Uniclusterработает,
> а часть - получила статус “launch failed requeued held”. Не совсем
> понятно почему так произошло (все задачи запускались одинаково) и что
> с ними делать.
Произошла авария на дисковой подсистеме узла n3, по причине которой
узел некоторое время функционировал некорректно. Попавшие на него
задачи ошибочно распознавались Slurm как незапустившиеся на исправном
узле (launch failed) и блокировались (requeued held).
Авария исправлена. Задачи разблокированы. Прошу прощения за
доставленные неудобства.
> С уважением,
> Алексей Богданов
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list