[mephi-hpc] Проблемы с задачей на кластере cherenkov

Николай Бухарский n.bukharskii at gmail.com
Fri Sep 10 12:27:29 MSK 2021


Добрый день,

Для запуска задачи сначала необходимо скомпилировать код - я это делал
следующим образом - создавал в папке 'pond_force' директорию build,
переходил в нее и использовал команду cmake для создания makefile, а затем
компилировал при помощи make - после этого в исходной директории
'pond_force' появляется исполняемый файл 'elektra'.

Затем, когда код скомпилирован, необходимо создать в директории
'pond_force' папку 'results' - в нее будут записываться создаваемые кодом
файлы. Далее можно производить запуск с помощью .sh скрипта, который
обращается к исполняемому файлу 'elektra'. Свой .sh скрипт я приложил к
предыдущему письму ('run.sh'). При этом для расчета используются параметры
файлов из папки 'config' - их можно не менять, но папка 'config' должна
также быть в директории 'pond_force'.
Спустя какое-то время в .out файле должны начать появляться данные о
прогрессе от каждого из процессов, а в папке results - .h5 файлы с
результатами расчета. Ранее при запуске на 64 ядрах каждые 10 минут
появлялось где-то штук 30 новых файлов. Сейчас же ничего не происходит и за
30 минут, а в .out файле не появляется вообще никаких выводов.

---
С уважением,
Бухарский Николай

пт, 10 сент. 2021 г. в 11:50, anikeev <anikeev at ut.mephi.ru>:

> On Fri, 2021-09-10 at 02:11 +0300, Николай Бухарский wrote:
> > Добрый день!
>
> Здравствуйте!
>
> > После обновления кластера cherenkov перестала считаться одна из
> > задач, которая ранее работала без нареканий. Код и файл, с помощью
> > которого ее запускаю, прикладываю.
> >
> > Для компиляции использовал cmake, его файл также прикладываю. На
> > этапе компиляции никаких ошибок не возникает. Однако скомпилированный
> > код при запуске не производит никаких данных, но и не закрывается из-
> > за каких-либо ошибок, то есть просто висит мертвым грузом. Заметил
> > только, что при запуске задачи на 218 ноде в логе выводится:
> > slurmstepd: error: file_write uint32: unable to open '(null)/tasks'
> > for writing: No such file or directory
> > slurmstepd-n: error: unable to add task[pid=5606] to memory cg
> > '(null)'
> > С другими нодами же не выводится вообще ничего.
> >
> > Подскажите пожалуйста, с чем это может быть связано и как это можно
> > исправить?
>
> Подскажите, пожалуйста, как можно полностью воспроизвести запуск Вашей
> задачи на самом кластере, используя оригинальные директории и
> исполняемые файлы?
>
> > ---
> > С уважением,
> > Бухарский Николай
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
>
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20210910/0dc7ebcd/attachment.html>


More information about the hpc mailing list