[mephi-hpc] ReqNodeNotAvail на basov

Nikolai Bukharskii n.bukharskii at gmail.com
Wed Aug 30 12:34:09 MSK 2023


Спасибо! Я попробовал убрать ntasks-per-socket. Текущий заголовок sbatch
скрипта выглядит так (хочу запустить 4 задачи на 4 узлах, заняв все 16 ядер
на каждом):
#!/bin/bash
#
#SBATCH --job-name=smilei
#SBATCH -t 100:00:00
#SBATCH -e log.err
#SBATCH -o log.out
#SBATCH --nodes=4
#SBATCH --ntasks=4
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=16
export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK
export HDF5_USE_FILE_LOCKING=FALSE

Однако сообщение осталось то же:
(ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])

Подскажите, что еще я мог сделать не так?

---
С уважением,
Бухарский Николай

ср, 30 авг. 2023 г. в 12:24, <anikeev at ut.mephi.ru>:

> Nikolai Bukharskii писал 2023-08-30 11:46:
> > Добрый день!
>
> Здравствуйте!
>
> > При попытке запустить задачу,
> > запрашивающую 4 вычислительных узла
> > на basov, задача встает в очередь с
> > пояснением "(ReqNodeNotAvail,
> > UnavailableNodes:n[102-108,112-119])", то есть почти все
> > ноды, на которых сейчас не идут
> > расчеты, недоступны. Это нормальное
> > поведение, или ноды не доступны из-за
> > какой-то ошибки?
>
> root at basov:/home/anikeev# cat
>
> /mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh
> ...
> #SBATCH --nodes=4
> #SBATCH --ntasks=4
> #SBATCH --ntasks-per-node=1
> #SBATCH --ntasks-per-socket=1
> #SBATCH --cpus-per-task=16
>
> Вы запрашиваете узлы с 16-ядерными сокетами. Таких узлов на basov нет.
> Нужно либо убрать ntasks-per-socket и задача будет запускать под одному
> MPI task на одном сервере (не на каждом сокете), либо понижать
> cpus-per-task до 8.
>
> Не забудьте построить кривую масштабирования, как рекомендуется в п.
> 4.5.2 руководства пользователя:
>
> https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf
>
> На basov используется блокирующая сеть 10GbE без аппаратной гарантии
> доставки, без драйвера в пространстве пользователя и только с одним
> интерфейсом на сервер. Масштабирование MPI задач на такой сети может
> быть сильно ограничено.
>
> > ---
> > С уважением,
> > Бухарский Николай
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
>
> --
> С уважением,
> инженер отдела UNIX-технологий НИЯУ МИФИ,
> к.ф.-м.н.,
> Аникеев Артем.
> e-mail: anikeev at ut.mephi.ru
> тел.: 8 (495) 788-56-99, доб. 8998
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20230830/717b33d9/attachment.htm>


More information about the hpc mailing list