<div dir="ltr">Благодарю!</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">ср, 30 авг. 2023 г. в 13:23, <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Nikolai Bukharskii писал 2023-08-30 12:34:<br>
> Спасибо! Я попробовал убрать<br>
> ntasks-per-socket. Текущий заголовок sbatch<br>
> скрипта выглядит так (хочу запустить 4<br>
> задачи на 4 узлах, заняв все 16 ядер на<br>
> каждом):<br>
> #!/bin/bash<br>
> #<br>
> #SBATCH --job-name=smilei<br>
> #SBATCH -t 100:00:00<br>
> #SBATCH -e log.err<br>
> #SBATCH -o log.out<br>
> #SBATCH --nodes=4<br>
> #SBATCH --ntasks=4<br>
> #SBATCH --ntasks-per-node=1<br>
> #SBATCH --cpus-per-task=16<br>
> export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK<br>
> export HDF5_USE_FILE_LOCKING=FALSE<br>
> <br>
> Однако сообщение осталось то же:<br>
> (ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])<br>
> <br>
> Подскажите, что еще я мог сделать не<br>
> так?<br>
<br>
Теперь проблема в предыдущей задаче - узлы уходили в ошибку по слишком <br>
долгому завершению задачи. Исправил. Если повторится, подниму таймауты. <br>
Видимо, .out файлы очень тяжелые были.<br>
<br>
> ---<br>
> С уважением,<br>
> Бухарский Николай<br>
> <br>
> ср, 30 авг. 2023 г. в 12:24, <<a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a>>:<br>
> <br>
>> Nikolai Bukharskii писал 2023-08-30 11:46:<br>
>>> Добрый день!<br>
>> <br>
>> Здравствуйте!<br>
>> <br>
>>> При попытке запустить задачу,<br>
>>> запрашивающую 4 вычислительных узла<br>
>>> на basov, задача встает в очередь с<br>
>>> пояснением "(ReqNodeNotAvail,<br>
>>> UnavailableNodes:n[102-108,112-119])", то есть почти<br>
>> все<br>
>>> ноды, на которых сейчас не идут<br>
>>> расчеты, недоступны. Это нормальное<br>
>>> поведение, или ноды не доступны<br>
>> из-за<br>
>>> какой-то ошибки?<br>
>> <br>
>> root@basov:/home/anikeev# cat<br>
>> <br>
> /mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh<br>
>> ...<br>
>> #SBATCH --nodes=4<br>
>> #SBATCH --ntasks=4<br>
>> #SBATCH --ntasks-per-node=1<br>
>> #SBATCH --ntasks-per-socket=1<br>
>> #SBATCH --cpus-per-task=16<br>
>> <br>
>> Вы запрашиваете узлы с 16-ядерными<br>
>> сокетами. Таких узлов на basov нет.<br>
>> Нужно либо убрать ntasks-per-socket и задача<br>
>> будет запускать под одному<br>
>> MPI task на одном сервере (не на каждом<br>
>> сокете), либо понижать<br>
>> cpus-per-task до 8.<br>
>> <br>
>> Не забудьте построить кривую<br>
>> масштабирования, как рекомендуется в<br>
>> п.<br>
>> 4.5.2 руководства пользователя:<br>
>> <br>
>> <a href="https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf" rel="noreferrer" target="_blank">https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf</a><br>
>> <br>
>> На basov используется блокирующая сеть<br>
>> 10GbE без аппаратной гарантии<br>
>> доставки, без драйвера в<br>
>> пространстве пользователя и только с<br>
>> одним<br>
>> интерфейсом на сервер.<br>
>> Масштабирование MPI задач на такой<br>
>> сети может<br>
>> быть сильно ограничено.<br>
>> <br>
>>> ---<br>
>>> С уважением,<br>
>>> Бухарский Николай<br>
>>> _______________________________________________<br>
>>> hpc mailing list<br>
>>> <a href="mailto:hpc@lists.mephi.ru" target="_blank">hpc@lists.mephi.ru</a><br>
>>> <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
>> <br>
>> --<br>
>> С уважением,<br>
>> инженер отдела UNIX-технологий НИЯУ<br>
>> МИФИ,<br>
>> к.ф.-м.н.,<br>
>> Аникеев Артем.<br>
>> e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>
>> тел.: 8 (495) 788-56-99, доб. 8998<br>
<br>
--<br>
С уважением,<br>
инженер отдела UNIX-технологий НИЯУ МИФИ,<br>
к.ф.-м.н.,<br>
Аникеев Артем.<br>
e-mail: <a href="mailto:anikeev@ut.mephi.ru" target="_blank">anikeev@ut.mephi.ru</a><br>
тел.: 8 (495) 788-56-99, доб. 8998<br>
<br>
</blockquote></div>