[mephi-hpc] Запуск задач на кластере
anikeev at ut.mephi.ru
anikeev at ut.mephi.ru
Thu Apr 25 12:59:29 MSK 2024
Андрей Шумилин писал 2024-04-24 22:39:
> Добрый вечер!
Здравствуйте!
> Подскажите пожалуйста, в чем может
> быть проблема и какой может быть выход
> из нее.
> Я запускаю задачи скриптом (приведен
> ниже, кластер cherenkov), но почему-то они
> запускаются через раз. На прошлой
> неделе удалось запустить все задачи и
> они спокойно по очереди запускались и
> все работало, однако в последние
> несколько дней наблюдаю странную
> особенность: задачи лежат в беклоге
Вы называете бэклогом очередь? Причина задержки в очереди указана в
столбце REASON вывода утилиты squeue менеджера ресурсов SLURM. В текущий
момента Ваша задача 1684118 задержана по причине недостатка ресурсов
(Resources), остальные Ваши задачи задержаны по причине приоритета
(Priority), т.к. были поставлены в очередь позже задачи 1684118.
> уже дня 3, причем дело не в приоритете,
> а в том, что задача ждет ресурсов. При
> этом ноды свободные регулярно
> освобождаются, но на них запускаются
> задачи других людей, хотя следующая в
> очереди моя. Я не совсем понимаю,
> ресурсы, которые я запрашиваю вроде
> как входят в рамки оборудования, да и
> этим скриптом я пользовался
> совершенно недавно и все удавалось
> запускать, но тем не менее задачи ждут
> ресурсов и не запускаются.
В данный момент доступны следующие ресурсы:
anikeev at cherenkov.cherenkov ~ $ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
cpu* up 14-00:00:0 8 mix n[201-202,214-219]
cpu* up 14-00:00:0 11 alloc n[203-213]
avx2 up 14-00:00:0 8 mix n[201-202,214-219]
avx2 up 14-00:00:0 11 alloc n[203-213]
anikeev at cherenkov.cherenkov ~ $ scontrol show node n201
...
CfgTRES=cpu=16,mem=125G,billing=16
AllocTRES=cpu=1,mem=120G
Т.е. частично доступны 8 узлов, но на них свободно только 5GB
оперативной памяти. Для Вашей задачи нужно 96GB, согласно запрошенным
Вами ресурсам:
anikeev at cherenkov.cherenkov ~ $ scontrol show job 1684118
TRES=cpu=16,mem=96000M,node=1,billing=16
В таком режиме нагрузки Ваши задачи действительно будут пропускать
вперед задачи других пользователей, которые требуют менее 5 GB
оперативной памяти и которые успеют завершиться до освобождения
необходимой Вам памяти. Это правильное поведение SLURM.
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела UNIX-технологий НИЯУ МИФИ,
к.ф.-м.н.,
Аникеев Артем.
e-mail: anikeev at ut.mephi.ru
тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list