[mephi-hpc] ReqNodeNotAvail на basov

Wed Aug 30 13:25:43 MSK 2023

Благодарю!

ср, 30 авг. 2023 г. в 13:23, <anikeev at ut.mephi.ru>:

> Nikolai Bukharskii писал 2023-08-30 12:34:
> > Спасибо! Я попробовал убрать
> > ntasks-per-socket. Текущий заголовок sbatch
> > скрипта выглядит так (хочу запустить 4
> > задачи на 4 узлах, заняв все 16 ядер на
> > каждом):
> > #!/bin/bash
> > #
> > #SBATCH --job-name=smilei
> > #SBATCH -t 100:00:00
> > #SBATCH -e log.err
> > #SBATCH -o log.out
> > #SBATCH --nodes=4
> > #SBATCH --ntasks=4
> > #SBATCH --ntasks-per-node=1
> > #SBATCH --cpus-per-task=16
> > export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK
> > export HDF5_USE_FILE_LOCKING=FALSE
> >
> > Однако сообщение осталось то же:
> > (ReqNodeNotAvail, UnavailableNodes:n[102-108,112-119])
> >
> > Подскажите, что еще я мог сделать не
> > так?
>
> Теперь проблема в предыдущей задаче - узлы уходили в ошибку по слишком
> долгому завершению задачи. Исправил. Если повторится, подниму таймауты.
> Видимо, .out файлы очень тяжелые были.
>
> > ---
> > С уважением,
> > Бухарский Николай
> >
> > ср, 30 авг. 2023 г. в 12:24, <anikeev at ut.mephi.ru>:
> >
> >> Nikolai Bukharskii писал 2023-08-30 11:46:
> >>> Добрый день!
> >>
> >> Здравствуйте!
> >>
> >>> При попытке запустить задачу,
> >>> запрашивающую 4 вычислительных узла
> >>> на basov, задача встает в очередь с
> >>> пояснением "(ReqNodeNotAvail,
> >>> UnavailableNodes:n[102-108,112-119])", то есть почти
> >> все
> >>> ноды, на которых сейчас не идут
> >>> расчеты, недоступны. Это нормальное
> >>> поведение, или ноды не доступны
> >> из-за
> >>> какой-то ошибки?
> >>
> >> root at basov:/home/anikeev# cat
> >>
> >
> /mnt/pool/6/bukharskii/smilei_simulations/2D_CH2_plate_0.10um_0.0deg_v5_2/slurm.sh
> >> ...
> >> #SBATCH --nodes=4
> >> #SBATCH --ntasks=4
> >> #SBATCH --ntasks-per-node=1
> >> #SBATCH --ntasks-per-socket=1
> >> #SBATCH --cpus-per-task=16
> >>
> >> Вы запрашиваете узлы с 16-ядерными
> >> сокетами. Таких узлов на basov нет.
> >> Нужно либо убрать ntasks-per-socket и задача
> >> будет запускать под одному
> >> MPI task на одном сервере (не на каждом
> >> сокете), либо понижать
> >> cpus-per-task до 8.
> >>
> >> Не забудьте построить кривую
> >> масштабирования, как рекомендуется в
> >> п.
> >> 4.5.2 руководства пользователя:
> >>
> >> https://ut.mephi.ru/pdf/projects/hpc/userguide.pdf
> >>
> >> На basov используется блокирующая сеть
> >> 10GbE без аппаратной гарантии
> >> доставки, без драйвера в
> >> пространстве пользователя и только с
> >> одним
> >> интерфейсом на сервер.
> >> Масштабирование MPI задач на такой
> >> сети может
> >> быть сильно ограничено.
> >>
> >>> ---
> >>> С уважением,
> >>> Бухарский Николай
> >>> _______________________________________________
> >>> hpc mailing list
> >>> hpc at lists.mephi.ru
> >>> https://lists.mephi.ru/listinfo/hpc
> >>
> >> --
> >> С уважением,
> >> инженер отдела UNIX-технологий НИЯУ
> >> МИФИ,
> >> к.ф.-м.н.,
> >> Аникеев Артем.
> >> e-mail: anikeev at ut.mephi.ru
> >> тел.: 8 (495) 788-56-99, доб. 8998
>
> --
> С уважением,
> инженер отдела UNIX-технологий НИЯУ МИФИ,
> к.ф.-м.н.,
> Аникеев Артем.
> e-mail: anikeev at ut.mephi.ru
> тел.: 8 (495) 788-56-99, доб. 8998
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20230830/d37aa51a/attachment-0001.htm>