[mephi-hpc] ReqNodeNotAvail на basov
anikeev at ut.mephi.ru
anikeev at ut.mephi.ru
Wed Aug 30 12:24:21 MSK 2023
Nikolai Bukharskii писал 2023-08-30 11:46:
> Добрый день!
Здравствуйте!
> При попытке запустить задачу,
> запрашивающую 4 вычислительных узла
> на basov, задача встает в очередь с
> пояснением "(ReqNodeNotAvail,
> UnavailableNodes:n[102-108,112-119])", то есть почти все
> ноды, на которых сейчас не идут
> расчеты, недоступны. Это нормальное
> поведение, или ноды не доступны из-за
> какой-то ошибки?
root at basov:/home/anikeev# cat
/mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh
...
#SBATCH --nodes=4
#SBATCH --ntasks=4
#SBATCH --ntasks-per-node=1
#SBATCH --ntasks-per-socket=1
#SBATCH --cpus-per-task=16
Вы запрашиваете узлы с 16-ядерными сокетами. Таких узлов на basov нет.
Нужно либо убрать ntasks-per-socket и задача будет запускать под одному
MPI task на одном сервере (не на каждом сокете), либо понижать
cpus-per-task до 8.
Не забудьте построить кривую масштабирования, как рекомендуется в п.
4.5.2 руководства пользователя:
https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf
На basov используется блокирующая сеть 10GbE без аппаратной гарантии
доставки, без драйвера в пространстве пользователя и только с одним
интерфейсом на сервер. Масштабирование MPI задач на такой сети может
быть сильно ограничено.
> ---
> С уважением,
> Бухарский Николай
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела UNIX-технологий НИЯУ МИФИ,
к.ф.-м.н.,
Аникеев Артем.
e-mail: anikeev at ut.mephi.ru
тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list