[mephi-hpc] ReqNodeNotAvail на basov

Wed Aug 30 13:23:29 MSK 2023

Nikolai Bukharskii писал 2023-08-30 12:34:
> Спасибо! Я попробовал убрать
> ntasks-per-socket. Текущий заголовок sbatch
> скрипта выглядит так (хочу запустить 4
> задачи на 4 узлах, заняв все 16 ядер на
> каждом):
> #!/bin/bash
> #
> #SBATCH --job-name=smilei
> #SBATCH -t 100:00:00
> #SBATCH -e log.err
> #SBATCH -o log.out
> #SBATCH --nodes=4
> #SBATCH --ntasks=4
> #SBATCH --ntasks-per-node=1
> #SBATCH --cpus-per-task=16
> export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK
> export HDF5_USE_FILE_LOCKING=FALSE
> 
> Однако сообщение осталось то же:
> (ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])
> 
> Подскажите, что еще я мог сделать не
> так?

Теперь проблема в предыдущей задаче - узлы уходили в ошибку по слишком 
долгому завершению задачи. Исправил. Если повторится, подниму таймауты. 
Видимо, .out файлы очень тяжелые были.

> ---
> С уважением,
> Бухарский Николай
> 
> ср, 30 авг. 2023 г. в 12:24, <anikeev at ut.mephi.ru>:
> 
>> Nikolai Bukharskii писал 2023-08-30 11:46:
>>> Добрый день!
>> 
>> Здравствуйте!
>> 
>>> При попытке запустить задачу,
>>> запрашивающую 4 вычислительных узла
>>> на basov, задача встает в очередь с
>>> пояснением "(ReqNodeNotAvail,
>>> UnavailableNodes:n[102-108,112-119])", то есть почти
>> все
>>> ноды, на которых сейчас не идут
>>> расчеты, недоступны. Это нормальное
>>> поведение, или ноды не доступны
>> из-за
>>> какой-то ошибки?
>> 
>> root at basov:/home/anikeev# cat
>> 
> /mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh
>> ...
>> #SBATCH --nodes=4
>> #SBATCH --ntasks=4
>> #SBATCH --ntasks-per-node=1
>> #SBATCH --ntasks-per-socket=1
>> #SBATCH --cpus-per-task=16
>> 
>> Вы запрашиваете узлы с 16-ядерными
>> сокетами. Таких узлов на basov нет.
>> Нужно либо убрать ntasks-per-socket и задача
>> будет запускать под одному
>> MPI task на одном сервере (не на каждом
>> сокете), либо понижать
>> cpus-per-task до 8.
>> 
>> Не забудьте построить кривую
>> масштабирования, как рекомендуется в
>> п.
>> 4.5.2 руководства пользователя:
>> 
>> https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf
>> 
>> На basov используется блокирующая сеть
>> 10GbE без аппаратной гарантии
>> доставки, без драйвера в
>> пространстве пользователя и только с
>> одним
>> интерфейсом на сервер.
>> Масштабирование MPI задач на такой
>> сети может
>> быть сильно ограничено.
>> 
>>> ---
>>> С уважением,
>>> Бухарский Николай
>>> _______________________________________________
>>> hpc mailing list
>>> hpc at lists.mephi.ru
>>> https://lists.mephi.ru/listinfo/hpc
>> 
>> --
>> С уважением,
>> инженер отдела UNIX-технологий НИЯУ
>> МИФИ,
>> к.ф.-м.н.,
>> Аникеев Артем.
>> e-mail: anikeev at ut.mephi.ru
>> тел.: 8 (495) 788-56-99, доб. 8998

--
С уважением,
инженер отдела UNIX-технологий НИЯУ МИФИ,
к.ф.-м.н.,
Аникеев Артем.
e-mail: anikeev at ut.mephi.ru
тел.: 8 (495) 788-56-99, доб. 8998