<div dir="ltr">Спасибо! Я попробовал убрать ntasks-per-socket. Текущий заголовок sbatch скрипта выглядит так (хочу запустить 4 задачи на 4 узлах, заняв все 16 ядер на каждом):<div>#!/bin/bash<br>#<br>#SBATCH --job-name=smilei<br>#SBATCH -t 100:00:00<br>#SBATCH -e log.err<br>#SBATCH -o log.out<br>#SBATCH --nodes=4<br>#SBATCH --ntasks=4<br>#SBATCH --ntasks-per-node=1<br>#SBATCH --cpus-per-task=16<br>export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK<br>export HDF5_USE_FILE_LOCKING=FALSE<br></div><div><br></div><div>Однако сообщение осталось то же:</div><div>(ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])<br></div><div><br></div><div>Подскажите, что еще я мог сделать не так?</div><div><br></div><div>---</div><div>С уважением,</div><div>Бухарский Николай</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">ср, 30 авг. 2023 г. в 12:24, <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nikolai Bukharskii писал 2023-08-30 11:46:<br>


> Добрый день!<br>


<br>


Здравствуйте!<br>


<br>


> При попытке запустить задачу,<br>


> запрашивающую 4 вычислительных узла<br>


> на basov, задача встает в очередь с<br>


> пояснением "(ReqNodeNotAvail,<br>


> UnavailableNodes:n[102-108,112-119])", то есть почти все<br>


> ноды, на которых сейчас не идут<br>


> расчеты, недоступны. Это нормальное<br>


> поведение, или ноды не доступны из-за<br>


> какой-то ошибки?<br>


<br>


root@basov:/home/anikeev# cat <br>


/mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh<br>


...<br>


#SBATCH --nodes=4<br>


#SBATCH --ntasks=4<br>


#SBATCH --ntasks-per-node=1<br>


#SBATCH --ntasks-per-socket=1<br>


#SBATCH --cpus-per-task=16<br>


<br>


Вы запрашиваете узлы с 16-ядерными сокетами. Таких узлов на basov нет. <br>


Нужно либо убрать ntasks-per-socket и задача будет запускать под одному <br>


MPI task на одном сервере (не на каждом сокете), либо понижать <br>


cpus-per-task до 8.<br>


<br>


Не забудьте построить кривую масштабирования, как рекомендуется в п. <br>


4.5.2 руководства пользователя:<br>


<br>


<a href="https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf" rel="noreferrer" target="_blank">https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf</a><br>


<br>


На basov используется блокирующая сеть 10GbE без аппаратной гарантии <br>


доставки, без драйвера в пространстве пользователя и только с одним <br>


интерфейсом на сервер. Масштабирование MPI задач на такой сети может <br>


быть сильно ограничено.<br>


<br>


> ---<br>


> С уважением,<br>


> Бухарский Николай<br>


> _______________________________________________<br>


> hpc mailing list<br>


> <a href="mailto:hpc@lists.mephi.ru" target="_blank">hpc@lists.mephi.ru</a><br>


> <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>


<br>


--<br>


С уважением,<br>


инженер отдела UNIX-технологий НИЯУ МИФИ,<br>


к.ф.-м.н.,<br>


Аникеев Артем.<br>


e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>


тел.: 8 (495) 788-56-99, доб. 8998<br>


<br>


</blockquote></div>