<div dir="ltr">Благодарю!</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">ср, 30 авг. 2023 г. в 13:23, <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nikolai Bukharskii писал 2023-08-30 12:34:<br>


> Спасибо! Я попробовал убрать<br>


> ntasks-per-socket. Текущий заголовок sbatch<br>


> скрипта выглядит так (хочу запустить 4<br>


> задачи на 4 узлах, заняв все 16 ядер на<br>


> каждом):<br>


> #!/bin/bash<br>


> #<br>


> #SBATCH --job-name=smilei<br>


> #SBATCH -t 100:00:00<br>


> #SBATCH -e log.err<br>


> #SBATCH -o log.out<br>


> #SBATCH --nodes=4<br>


> #SBATCH --ntasks=4<br>


> #SBATCH --ntasks-per-node=1<br>


> #SBATCH --cpus-per-task=16<br>


> export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK<br>


> export HDF5_USE_FILE_LOCKING=FALSE<br>


> <br>


> Однако сообщение осталось то же:<br>


> (ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])<br>


> <br>


> Подскажите, что еще я мог сделать не<br>


> так?<br>


<br>


Теперь проблема в предыдущей задаче - узлы уходили в ошибку по слишком <br>


долгому завершению задачи. Исправил. Если повторится, подниму таймауты. <br>


Видимо, .out файлы очень тяжелые были.<br>


<br>


> ---<br>


> С уважением,<br>


> Бухарский Николай<br>


> <br>


> ср, 30 авг. 2023 г. в 12:24, <<a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a>>:<br>


> <br>


>> Nikolai Bukharskii писал 2023-08-30 11:46:<br>


>>> Добрый день!<br>


>> <br>


>> Здравствуйте!<br>


>> <br>


>>> При попытке запустить задачу,<br>


>>> запрашивающую 4 вычислительных узла<br>


>>> на basov, задача встает в очередь с<br>


>>> пояснением "(ReqNodeNotAvail,<br>


>>> UnavailableNodes:n[102-108,112-119])", то есть почти<br>


>> все<br>


>>> ноды, на которых сейчас не идут<br>


>>> расчеты, недоступны. Это нормальное<br>


>>> поведение, или ноды не доступны<br>


>> из-за<br>


>>> какой-то ошибки?<br>


>> <br>


>> root@basov:/home/anikeev# cat<br>


>> <br>


> /mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh<br>


>> ...<br>


>> #SBATCH --nodes=4<br>


>> #SBATCH --ntasks=4<br>


>> #SBATCH --ntasks-per-node=1<br>


>> #SBATCH --ntasks-per-socket=1<br>


>> #SBATCH --cpus-per-task=16<br>


>> <br>


>> Вы запрашиваете узлы с 16-ядерными<br>


>> сокетами. Таких узлов на basov нет.<br>


>> Нужно либо убрать ntasks-per-socket и задача<br>


>> будет запускать под одному<br>


>> MPI task на одном сервере (не на каждом<br>


>> сокете), либо понижать<br>


>> cpus-per-task до 8.<br>


>> <br>


>> Не забудьте построить кривую<br>


>> масштабирования, как рекомендуется в<br>


>> п.<br>


>> 4.5.2 руководства пользователя:<br>


>> <br>


>> <a href="https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf" rel="noreferrer" target="_blank">https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf</a><br>


>> <br>


>> На basov используется блокирующая сеть<br>


>> 10GbE без аппаратной гарантии<br>


>> доставки, без драйвера в<br>


>> пространстве пользователя и только с<br>


>> одним<br>


>> интерфейсом на сервер.<br>


>> Масштабирование MPI задач на такой<br>


>> сети может<br>


>> быть сильно ограничено.<br>


>> <br>


>>> ---<br>


>>> С уважением,<br>


>>> Бухарский Николай<br>


>>> _______________________________________________<br>


>>> hpc mailing list<br>


>>> <a href="mailto:hpc@lists.mephi.ru" target="_blank">hpc@lists.mephi.ru</a><br>


>>> <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>


>> <br>


>> --<br>


>> С уважением,<br>


>> инженер отдела UNIX-технологий НИЯУ<br>


>> МИФИ,<br>


>> к.ф.-м.н.,<br>


>> Аникеев Артем.<br>


>> e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>


>> тел.: 8 (495) 788-56-99, доб. 8998<br>


<br>


--<br>


С уважением,<br>


инженер отдела UNIX-технологий НИЯУ МИФИ,<br>


к.ф.-м.н.,<br>


Аникеев Артем.<br>


e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>


тел.: 8 (495) 788-56-99, доб. 8998<br>


<br>


</blockquote></div>