[mephi-hpc] ReqNodeNotAvail на basov

anikeev at ut.mephi.ru anikeev at ut.mephi.ru
Wed Aug 30 12:24:21 MSK 2023


Nikolai Bukharskii писал 2023-08-30 11:46:
> Добрый день!

Здравствуйте!

> При попытке запустить задачу,
> запрашивающую 4 вычислительных узла
> на basov, задача встает в очередь с
> пояснением "(ReqNodeNotAvail,
> UnavailableNodes:n[102-108,112-119])", то есть почти все
> ноды, на которых сейчас не идут
> расчеты, недоступны. Это нормальное
> поведение, или ноды не доступны из-за
> какой-то ошибки?

root at basov:/home/anikeev# cat 
/mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh
...
#SBATCH --nodes=4
#SBATCH --ntasks=4
#SBATCH --ntasks-per-node=1
#SBATCH --ntasks-per-socket=1
#SBATCH --cpus-per-task=16

Вы запрашиваете узлы с 16-ядерными сокетами. Таких узлов на basov нет. 
Нужно либо убрать ntasks-per-socket и задача будет запускать под одному 
MPI task на одном сервере (не на каждом сокете), либо понижать 
cpus-per-task до 8.

Не забудьте построить кривую масштабирования, как рекомендуется в п. 
4.5.2 руководства пользователя:

https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf

На basov используется блокирующая сеть 10GbE без аппаратной гарантии 
доставки, без драйвера в пространстве пользователя и только с одним 
интерфейсом на сервер. Масштабирование MPI задач на такой сети может 
быть сильно ограничено.

> ---
> С уважением,
> Бухарский Николай
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc

--
С уважением,
инженер отдела UNIX-технологий НИЯУ МИФИ,
к.ф.-м.н.,
Аникеев Артем.
e-mail: anikeev at ut.mephi.ru
тел.: 8 (495) 788-56-99, доб. 8998



More information about the hpc mailing list