[mephi-hpc] Проблема с работой программы

anikeev anikeev at ut.mephi.ru
Fri Feb 8 15:49:32 MSK 2019


On Fri, 2019-02-08 at 15:26 +0300, Alexandra Freidzon wrote:
> Ну да, так они и слетают. А через минуту те же задачи на той же ноде
> успешно проходят. Это и есть проблема.

Тогда Вам нужно разбираться с производительностью. Для профилирования
можно использовать утилиту perf. Если задача большую часть времени
проводит в последовательном участке алгоритма, то смысла в параллелизме
нет. 90% простой ресурсов для HPC кластеров неприемлем.

Я сегодня добавлю амнистию на первый час работы программы, чтобы дать
запас на последовательный ввод данных с диска. Но лимит эффективности в
10% и так слишком либерален.

> пт, 8 февр. 2019 г. в 14:26, anikeev <anikeev at ut.mephi.ru>:
> > 
> > On Wed, 2019-02-06 at 21:14 +0300, Alexandra Freidzon wrote:
> > 
> > Добрый день!
> > 
> > > Со статической версией проблем, думаю, не будет. У меня была
> > > бета,
> > > она
> > > прекрасно работала, пока у нее срок не вышел. Вот сейчас новую
> > > дадут,
> > > надеюсь. Тогда можно будет совсем забить на взаимодействие с
> > > сетью.
> > 
> > Кстати, Ваши задачи 451584 и 451583 были принудительно завершены,
> > поскольку потребляли менее 10% от запрошенных ресурсов и расценены
> > как
> > зависшие.
> > 
> > > ср, 6 февр. 2019 г. в 19:39, anikeev <anikeev at ut.mephi.ru>:
> > > > 
> > > > > > > Basov:
> > > > > > > Проверьте, пожалуйста, результат работы программы в
> > > > > > > директории:
> > > > > > > /mnt/pool/1/freidzon/work/test_by_anikeev/anthracene_pair
> > > > > > > 3A_m
> > > > > > > cq_/
> > > > > > 
> > > > > > Да, тест прошел успешно.
> > > > > 
> > > > > Понятно, будем работать дальше.
> > > > > 
> > > > > > > Я запустил Вашу программу с отладчиком gdb и похоже, что
> > > > > > > она
> > > > > > > отработала
> > > > > > > успешно. Это довольно неприятный вид ошибок, когда
> > > > > > > использования
> > > > > > > отладчика исправляет проблему, что не позволяет эту
> > > > > > > проблему
> > > > > > > обнаружить... Но для таких случаев тоже есть методы. Для
> > > > > > > продолжения
> > > > > > > работы нужно убедиться, что результат работы с gdb
> > > > > > > корректен.
> > > > > > 
> > > > > > Я посоветовалась с автором программы, он пообещал сделать
> > > > > > полностью
> > > > > > статическую версию, не зависящую от MPI на обоих кластерах.
> > > > > > Он
> > > > > > считает, что тогда вообще все проблемы решатся и
> > > > > > разбираться с
> > > > > > MPI
> > > > > > не
> > > > > > придется. Посмотрим.
> > > > 
> > > > Для дальнейшей отладки необходимо собрать программу с опциями
> > > > компилятора -O0 -ggdb3. Если будет собираться статическая
> > > > версия,
> > > > то
> > > > можно сразу сделать две - одну с оптимизациями и одну для
> > > > отладки
> > > > (с
> > > > указанными опциями).
> > > > 
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > 
> > > > --
> > > > С уважением,
> > > > инженер отдела Unix-технологий МИФИ,
> > > > Аникеев Артём.
> > > > Тел.: 8
> > > > (495) 788-56-99, доб. 8998
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > 
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > 
> > --
> > С уважением,
> > инженер отдела Unix-технологий МИФИ,
> > Аникеев Артём.
> > Тел.: 8
> > (495) 788-56-99, доб. 8998
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list