[mephi-hpc] Проблемы с задачей на кластере cherenkov

Николай Бухарский n.bukharskii at gmail.com
Fri Sep 10 13:41:33 MSK 2021


Спасибо!
После упрощения стартового .sh скрипта приложение работает корректно.
Видимо ошибка была связана именно с этим.

пт, 10 сент. 2021 г. в 13:26, anikeev <anikeev at ut.mephi.ru>:

> On Fri, 2021-09-10 at 12:27 +0300, Николай Бухарский wrote:
> > Добрый день,
> >
> > Для запуска задачи сначала необходимо скомпилировать код - я это
> > делал следующим образом - создавал в папке 'pond_force' директорию
> > build, переходил в нее и использовал команду cmake для создания
> > makefile, а затем компилировал при помощи make - после этого в
> > исходной директории 'pond_force' появляется исполняемый файл
> > 'elektra'.
> >
> > Затем, когда код скомпилирован, необходимо создать в директории
> > 'pond_force' папку 'results' - в нее будут записываться создаваемые
> > кодом файлы. Далее можно производить запуск с помощью .sh скрипта,
> > который обращается к исполняемому файлу 'elektra'. Свой .sh скрипт я
> > приложил к предыдущему письму ('run.sh'). При этом для расчета
> > используются параметры файлов из папки 'config' - их можно не менять,
> > но папка 'config' должна также быть в директории 'pond_force'.
> > Спустя какое-то время в .out файле должны начать появляться данные о
> > прогрессе от каждого из процессов, а в папке results - .h5 файлы с
> > результатами расчета. Ранее при запуске на 64 ядрах каждые 10 минут
> > появлялось где-то штук 30 новых файлов. Сейчас же ничего не
> > происходит и за 30 минут, а в .out файле не появляется вообще никаких
> > выводов.
>
> Вы забыли рассказать, что ещё нужно создать файл log.in, который
> приложение почему-то не создает само и выводит соответствующее
> предупреждение в STDOUT/STDERR.
>
> Приложение работает. Задача 202975, директория
> /mnt/pool/5/anikeev/bukharskii_problem/pond_force
>
> Скрипт упростил до такого:
>
> =====
> #!/bin/bash
> #
> #SBATCH -t 30:00:00
> #SBATCH --ntasks=8
> #SBATCH --cpus-per-task=8
> export OMP_NUM_THREADS=8
> export HDF5_USE_FILE_LOCKING=FALSE
>
> mpirun.openmpi ./elektra
> =====
> > ---
> > С уважением,
> > Бухарский Николай
> >
> > пт, 10 сент. 2021 г. в 11:50, anikeev <anikeev at ut.mephi.ru>:
> > > On Fri, 2021-09-10 at 02:11 +0300, Николай Бухарский wrote:
> > > > Добрый день!
> > >
> > > Здравствуйте!
> > >
> > > > После обновления кластера cherenkov перестала считаться одна из
> > > > задач, которая ранее работала без нареканий. Код и файл, с
> > > помощью
> > > > которого ее запускаю, прикладываю.
> > > >
> > > > Для компиляции использовал cmake, его файл также прикладываю. На
> > > > этапе компиляции никаких ошибок не возникает. Однако
> > > скомпилированный
> > > > код при запуске не производит никаких данных, но и не закрывается
> > > из-
> > > > за каких-либо ошибок, то есть просто висит мертвым грузом.
> > > Заметил
> > > > только, что при запуске задачи на 218 ноде в логе выводится:
> > > > slurmstepd: error: file_write uint32: unable to open
> > > '(null)/tasks'
> > > > for writing: No such file or directory
> > > > slurmstepd-n: error: unable to add task[pid=5606] to memory cg
> > > > '(null)'
> > > > С другими нодами же не выводится вообще ничего.
> > > >
> > > > Подскажите пожалуйста, с чем это может быть связано и как это
> > > можно
> > > > исправить?
> > >
> > > Подскажите, пожалуйста, как можно полностью воспроизвести запуск
> > > Вашей
> > > задачи на самом кластере, используя оригинальные директории и
> > > исполняемые файлы?
> > >
> > > > ---
> > > > С уважением,
> > > > Бухарский Николай
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > >
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
>
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20210910/65aa4194/attachment-0001.html>


More information about the hpc mailing list