<div dir="ltr">Спасибо! Я попробовал убрать ntasks-per-socket. Текущий заголовок sbatch скрипта выглядит так (хочу запустить 4 задачи на 4 узлах, заняв все 16 ядер на каждом):<div>#!/bin/bash<br>#<br>#SBATCH --job-name=smilei<br>#SBATCH -t 100:00:00<br>#SBATCH -e log.err<br>#SBATCH -o log.out<br>#SBATCH --nodes=4<br>#SBATCH --ntasks=4<br>#SBATCH --ntasks-per-node=1<br>#SBATCH --cpus-per-task=16<br>export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK<br>export HDF5_USE_FILE_LOCKING=FALSE<br></div><div><br></div><div>Однако сообщение осталось то же:</div><div>(ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])<br></div><div><br></div><div>Подскажите, что еще я мог сделать не так?</div><div><br></div><div>---</div><div>С уважением,</div><div>Бухарский Николай</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">ср, 30 авг. 2023 г. в 12:24, <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nikolai Bukharskii писал 2023-08-30 11:46:<br>
> Добрый день!<br>
<br>
Здравствуйте!<br>
<br>
> При попытке запустить задачу,<br>
> запрашивающую 4 вычислительных узла<br>
> на basov, задача встает в очередь с<br>
> пояснением "(ReqNodeNotAvail,<br>
> UnavailableNodes:n[102-108,112-119])", то есть почти все<br>
> ноды, на которых сейчас не идут<br>
> расчеты, недоступны. Это нормальное<br>
> поведение, или ноды не доступны из-за<br>
> какой-то ошибки?<br>
<br>
root@basov:/home/anikeev# cat <br>
/mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh<br>
...<br>
#SBATCH --nodes=4<br>
#SBATCH --ntasks=4<br>
#SBATCH --ntasks-per-node=1<br>
#SBATCH --ntasks-per-socket=1<br>
#SBATCH --cpus-per-task=16<br>
<br>
Вы запрашиваете узлы с 16-ядерными сокетами. Таких узлов на basov нет. <br>
Нужно либо убрать ntasks-per-socket и задача будет запускать под одному <br>
MPI task на одном сервере (не на каждом сокете), либо понижать <br>
cpus-per-task до 8.<br>
<br>
Не забудьте построить кривую масштабирования, как рекомендуется в п. <br>
4.5.2 руководства пользователя:<br>
<br>
<a href="https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf" rel="noreferrer" target="_blank">https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf</a><br>
<br>
На basov используется блокирующая сеть 10GbE без аппаратной гарантии <br>
доставки, без драйвера в пространстве пользователя и только с одним <br>
интерфейсом на сервер. Масштабирование MPI задач на такой сети может <br>
быть сильно ограничено.<br>
<br>
> ---<br>
> С уважением,<br>
> Бухарский Николай<br>
> _______________________________________________<br>
> hpc mailing list<br>
> <a href="mailto:hpc@lists.mephi.ru" target="_blank">hpc@lists.mephi.ru</a><br>
> <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
<br>
--<br>
С уважением,<br>
инженер отдела UNIX-технологий НИЯУ МИФИ,<br>
к.ф.-м.н.,<br>
Аникеев Артем.<br>
e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>
тел.: 8 (495) 788-56-99, доб. 8998<br>
<br>
</blockquote></div>