[mephi-hpc] Запуск задач на кластере

anikeev at ut.mephi.ru anikeev at ut.mephi.ru
Thu Apr 25 12:59:29 MSK 2024


Андрей Шумилин писал 2024-04-24 22:39:
> Добрый вечер!

Здравствуйте!

> Подскажите пожалуйста, в чем может
> быть проблема и какой может быть выход
> из нее.
> Я запускаю задачи скриптом (приведен
> ниже, кластер cherenkov), но почему-то они
> запускаются через раз. На прошлой
> неделе удалось запустить все задачи и
> они спокойно по очереди запускались и
> все работало, однако в последние
> несколько дней наблюдаю странную
> особенность: задачи лежат в беклоге

Вы называете бэклогом очередь? Причина задержки в очереди указана в 
столбце REASON вывода утилиты squeue менеджера ресурсов SLURM. В текущий 
момента Ваша задача 1684118 задержана по причине недостатка ресурсов 
(Resources), остальные Ваши задачи задержаны по причине приоритета 
(Priority), т.к. были поставлены в очередь позже задачи 1684118.

> уже дня 3, причем дело не в приоритете,
> а в том, что задача ждет ресурсов. При
> этом ноды свободные регулярно
> освобождаются, но на них запускаются
> задачи других людей, хотя следующая в
> очереди моя. Я не совсем понимаю,
> ресурсы, которые я запрашиваю вроде
> как входят в рамки оборудования, да и
> этим скриптом я пользовался
> совершенно недавно и все удавалось
> запускать, но тем не менее задачи ждут
> ресурсов и не запускаются.

В данный момент доступны следующие ресурсы:

anikeev at cherenkov.cherenkov ~ $ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
cpu*         up 14-00:00:0      8    mix n[201-202,214-219]
cpu*         up 14-00:00:0     11  alloc n[203-213]
avx2         up 14-00:00:0      8    mix n[201-202,214-219]
avx2         up 14-00:00:0     11  alloc n[203-213]
anikeev at cherenkov.cherenkov ~ $ scontrol show node n201
...
    CfgTRES=cpu=16,mem=125G,billing=16
    AllocTRES=cpu=1,mem=120G


Т.е. частично доступны 8 узлов, но на них свободно только 5GB 
оперативной памяти. Для Вашей задачи нужно 96GB, согласно запрошенным 
Вами ресурсам:

anikeev at cherenkov.cherenkov ~ $ scontrol show job 1684118
    TRES=cpu=16,mem=96000M,node=1,billing=16

В таком режиме нагрузки Ваши задачи действительно будут пропускать 
вперед задачи других пользователей, которые требуют менее 5 GB 
оперативной памяти и которые успеют завершиться до освобождения 
необходимой Вам памяти. Это правильное поведение SLURM.


> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc

--
С уважением,
инженер отдела UNIX-технологий НИЯУ МИФИ,
к.ф.-м.н.,
Аникеев Артем.
e-mail: anikeev at ut.mephi.ru
тел.: 8 (495) 788-56-99, доб. 8998



More information about the hpc mailing list