[mephi-hpc] статус задач launch failed requeued held

Богданов Алексей Георгиевич AGBogdanov at mephi.ru
Sat Dec 4 09:44:25 MSK 2021


Спасибо большое!

________________________________________
От: hpc <hpc-bounces at lists.mephi.ru> от имени anikeev <anikeev at ut.mephi.ru>
Отправлено: 3 декабря 2021 г. 19:48
Кому: NRNU MEPhI HPC discussion list
Тема: Re: [mephi-hpc]  статус задач launch failed requeued held

On Fri, 2021-12-03 at 15:07 +0000, Богданов Алексей Георгиевич wrote:
> Здравствуйте!

Здравствуйте!

> Часть запущенных на выполнение задач на кластере Uniclusterработает,
> а часть - получила статус “launch failed requeued held”.  Не совсем
> понятно почему так произошло (все задачи запускались одинаково) и что
> с ними делать.

Произошла авария на дисковой подсистеме узла n3, по причине которой
узел некоторое время функционировал некорректно. Попавшие на него
задачи ошибочно распознавались Slurm как незапустившиеся на исправном
узле (launch failed) и блокировались (requeued held).

Авария исправлена. Задачи разблокированы. Прошу прощения за
доставленные неудобства.

> С уважением,
> Алексей Богданов
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc

--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998

_______________________________________________
hpc mailing list
hpc at lists.mephi.ru
https://lists.mephi.ru/listinfo/hpc


More information about the hpc mailing list