[mephi-hpc] Проблемы с задачей на кластере cherenkov

anikeev anikeev at ut.mephi.ru
Fri Sep 10 13:26:16 MSK 2021


On Fri, 2021-09-10 at 12:27 +0300, Николай Бухарский wrote:
> Добрый день,
> 
> Для запуска задачи сначала необходимо скомпилировать код - я это
> делал следующим образом - создавал в папке 'pond_force' директорию
> build, переходил в нее и использовал команду cmake для создания
> makefile, а затем компилировал при помощи make - после этого в
> исходной директории 'pond_force' появляется исполняемый файл
> 'elektra'.
> 
> Затем, когда код скомпилирован, необходимо создать в директории
> 'pond_force' папку 'results' - в нее будут записываться создаваемые
> кодом файлы. Далее можно производить запуск с помощью .sh скрипта,
> который обращается к исполняемому файлу 'elektra'. Свой .sh скрипт я
> приложил к предыдущему письму ('run.sh'). При этом для расчета
> используются параметры файлов из папки 'config' - их можно не менять,
> но папка 'config' должна также быть в директории 'pond_force'. 
> Спустя какое-то время в .out файле должны начать появляться данные о
> прогрессе от каждого из процессов, а в папке results - .h5 файлы с
> результатами расчета. Ранее при запуске на 64 ядрах каждые 10 минут
> появлялось где-то штук 30 новых файлов. Сейчас же ничего не
> происходит и за 30 минут, а в .out файле не появляется вообще никаких
> выводов.

Вы забыли рассказать, что ещё нужно создать файл log.in, который
приложение почему-то не создает само и выводит соответствующее
предупреждение в STDOUT/STDERR.

Приложение работает. Задача 202975, директория
/mnt/pool/5/anikeev/bukharskii_problem/pond_force

Скрипт упростил до такого:

=====
#!/bin/bash
#
#SBATCH -t 30:00:00
#SBATCH --ntasks=8
#SBATCH --cpus-per-task=8
export OMP_NUM_THREADS=8
export HDF5_USE_FILE_LOCKING=FALSE

mpirun.openmpi ./elektra
=====
> ---
> С уважением,
> Бухарский Николай
> 
> пт, 10 сент. 2021 г. в 11:50, anikeev <anikeev at ut.mephi.ru>:
> > On Fri, 2021-09-10 at 02:11 +0300, Николай Бухарский wrote:
> > > Добрый день!
> > 
> > Здравствуйте!
> > 
> > > После обновления кластера cherenkov перестала считаться одна из
> > > задач, которая ранее работала без нареканий. Код и файл, с
> > помощью
> > > которого ее запускаю, прикладываю. 
> > > 
> > > Для компиляции использовал cmake, его файл также прикладываю. На
> > > этапе компиляции никаких ошибок не возникает. Однако
> > скомпилированный
> > > код при запуске не производит никаких данных, но и не закрывается
> > из-
> > > за каких-либо ошибок, то есть просто висит мертвым грузом.
> > Заметил
> > > только, что при запуске задачи на 218 ноде в логе выводится: 
> > > slurmstepd: error: file_write uint32: unable to open
> > '(null)/tasks'
> > > for writing: No such file or directory 
> > > slurmstepd-n: error: unable to add task[pid=5606] to memory cg
> > > '(null)'
> > > С другими нодами же не выводится вообще ничего.
> > > 
> > > Подскажите пожалуйста, с чем это может быть связано и как это
> > можно
> > > исправить?
> > 
> > Подскажите, пожалуйста, как можно полностью воспроизвести запуск
> > Вашей
> > задачи на самом кластере, используя оригинальные директории и
> > исполняемые файлы?
> > 
> > > ---
> > > С уважением,
> > > Бухарский Николай
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > 
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc

-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998



More information about the hpc mailing list