[mephi-hpc] Проблема с работой программы

Alexandra Freidzon freidzon.sanya at gmail.com
Fri Feb 8 16:26:38 MSK 2019


Спасибо, вечером буду разбираться

пт, 8 фев 2019 г., 16:25 anikeev <anikeev at ut.mephi.ru>:

> On Fri, 2019-02-08 at 16:02 +0300, Alexandra Freidzon wrote:
> > Ну, если строго одна и та же задача (без всякого элемента
> > случайности)
> > слетает на разных итерациях (то на 5-й, то на 39-й) или успешно
> > проходит в зависимости от мгновенного положения небесных светил или
> > системного таймера... ну что это?
>
> Нужно выяснить, на чем подвивает программа. Зависания - это
> ненормально. Меняется не поведение менеджера ресурсов, меняется
> поведение программы.
>
> На cherenkov perf уже стоит, на basov и uniclsuster поставил.
>
> Руководство пользователя по программе здесь:
>
> https://perf.wiki.kernel.org/index.php/Tutorial#Sampling_with_perf_reco
> rd
>
> Если коротко, то программа пересобирается с опцией -ggdb3 и
> запускается:
>
> perf reocrd ./a.out
>
> По завершении собранную статистику можно посмотреть
>
> perf report
>
> в той же директории. Там создаются временные файлы. Если программу не
> пересобирать с -ggdb3, то вместо названий функций в статистике будут
> использоваться их бинарные адреса.
>
> Если Вы запускаете много экземпляров задач, которые пишут на один
> носитель, то у Вас может возникать проблема с производительностью
> хранилищ. Для отладки этого сценария нужно запускать сразу много задач.
>
> > пт, 8 февр. 2019 г. в 16:00, anikeev <anikeev at ut.mephi.ru>:
> > >
> > > On Fri, 2019-02-08 at 15:53 +0300, Alexandra Freidzon wrote:
> > > > Не, я уверена, что дело не в этом, но с perf попробую
> > > > разобраться.
> > > > Слетает задача довольно быстро, может даже через 5 минут после
> > > > начала,
> > > > а может -- за пару минут до предполагаемого конца. Действия при
> > > > этом
> > > > программа выполняет однотипные.
> > >
> > > Да, эта задача убита по причине использования менее 10% ресурсов.
> > > Это
> > > проблема производительности. Видимо, действия не совсем однотипные.
> > >
> > > > Вот прямо сейчас: запустила задачу 451787 в 15:26, а в 15:50 уже
> > > > слетела.
> > > >
> > > > пт, 8 февр. 2019 г. в 15:49, anikeev <anikeev at ut.mephi.ru>:
> > > > >
> > > > > On Fri, 2019-02-08 at 15:26 +0300, Alexandra Freidzon wrote:
> > > > > > Ну да, так они и слетают. А через минуту те же задачи на той
> > > > > > же
> > > > > > ноде
> > > > > > успешно проходят. Это и есть проблема.
> > > > >
> > > > > Тогда Вам нужно разбираться с производительностью. Для
> > > > > профилирования
> > > > > можно использовать утилиту perf. Если задача большую часть
> > > > > времени
> > > > > проводит в последовательном участке алгоритма, то смысла в
> > > > > параллелизме
> > > > > нет. 90% простой ресурсов для HPC кластеров неприемлем.
> > > > >
> > > > > Я сегодня добавлю амнистию на первый час работы программы,
> > > > > чтобы
> > > > > дать
> > > > > запас на последовательный ввод данных с диска. Но лимит
> > > > > эффективности в
> > > > > 10% и так слишком либерален.
> > > > >
> > > > > > пт, 8 февр. 2019 г. в 14:26, anikeev <anikeev at ut.mephi.ru>:
> > > > > > >
> > > > > > > On Wed, 2019-02-06 at 21:14 +0300, Alexandra Freidzon
> > > > > > > wrote:
> > > > > > >
> > > > > > > Добрый день!
> > > > > > >
> > > > > > > > Со статической версией проблем, думаю, не будет. У меня
> > > > > > > > была
> > > > > > > > бета,
> > > > > > > > она
> > > > > > > > прекрасно работала, пока у нее срок не вышел. Вот сейчас
> > > > > > > > новую
> > > > > > > > дадут,
> > > > > > > > надеюсь. Тогда можно будет совсем забить на
> > > > > > > > взаимодействие с
> > > > > > > > сетью.
> > > > > > >
> > > > > > > Кстати, Ваши задачи 451584 и 451583 были принудительно
> > > > > > > завершены,
> > > > > > > поскольку потребляли менее 10% от запрошенных ресурсов и
> > > > > > > расценены
> > > > > > > как
> > > > > > > зависшие.
> > > > > > >
> > > > > > > > ср, 6 февр. 2019 г. в 19:39, anikeev <anikeev at ut.mephi.ru
> > > > > > > > >:
> > > > > > > > >
> > > > > > > > > > > > Basov:
> > > > > > > > > > > > Проверьте, пожалуйста, результат работы программы
> > > > > > > > > > > > в
> > > > > > > > > > > > директории:
> > > > > > > > > > > > /mnt/pool/1/freidzon/work/test_by_anikeev/anthrac
> > > > > > > > > > > > ene_
> > > > > > > > > > > > pair
> > > > > > > > > > > > 3A_m
> > > > > > > > > > > > cq_/
> > > > > > > > > > >
> > > > > > > > > > > Да, тест прошел успешно.
> > > > > > > > > >
> > > > > > > > > > Понятно, будем работать дальше.
> > > > > > > > > >
> > > > > > > > > > > > Я запустил Вашу программу с отладчиком gdb и
> > > > > > > > > > > > похоже,
> > > > > > > > > > > > что
> > > > > > > > > > > > она
> > > > > > > > > > > > отработала
> > > > > > > > > > > > успешно. Это довольно неприятный вид ошибок,
> > > > > > > > > > > > когда
> > > > > > > > > > > > использования
> > > > > > > > > > > > отладчика исправляет проблему, что не позволяет
> > > > > > > > > > > > эту
> > > > > > > > > > > > проблему
> > > > > > > > > > > > обнаружить... Но для таких случаев тоже есть
> > > > > > > > > > > > методы.
> > > > > > > > > > > > Для
> > > > > > > > > > > > продолжения
> > > > > > > > > > > > работы нужно убедиться, что результат работы с
> > > > > > > > > > > > gdb
> > > > > > > > > > > > корректен.
> > > > > > > > > > >
> > > > > > > > > > > Я посоветовалась с автором программы, он пообещал
> > > > > > > > > > > сделать
> > > > > > > > > > > полностью
> > > > > > > > > > > статическую версию, не зависящую от MPI на обоих
> > > > > > > > > > > кластерах.
> > > > > > > > > > > Он
> > > > > > > > > > > считает, что тогда вообще все проблемы решатся и
> > > > > > > > > > > разбираться с
> > > > > > > > > > > MPI
> > > > > > > > > > > не
> > > > > > > > > > > придется. Посмотрим.
> > > > > > > > >
> > > > > > > > > Для дальнейшей отладки необходимо собрать программу с
> > > > > > > > > опциями
> > > > > > > > > компилятора -O0 -ggdb3. Если будет собираться
> > > > > > > > > статическая
> > > > > > > > > версия,
> > > > > > > > > то
> > > > > > > > > можно сразу сделать две - одну с оптимизациями и одну
> > > > > > > > > для
> > > > > > > > > отладки
> > > > > > > > > (с
> > > > > > > > > указанными опциями).
> > > > > > > > >
> > > > > > > > > > > _______________________________________________
> > > > > > > > > > > hpc mailing list
> > > > > > > > > > > hpc at lists.mephi.ru
> > > > > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > > > >
> > > > > > > > > --
> > > > > > > > > С уважением,
> > > > > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > > > > Аникеев Артём.
> > > > > > > > > Тел.: 8
> > > > > > > > > (495) 788-56-99, доб. 8998
> > > > > > > > > _______________________________________________
> > > > > > > > > hpc mailing list
> > > > > > > > > hpc at lists.mephi.ru
> > > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > > >
> > > > > > > > _______________________________________________
> > > > > > > > hpc mailing list
> > > > > > > > hpc at lists.mephi.ru
> > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > >
> > > > > > > --
> > > > > > > С уважением,
> > > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > > Аникеев Артём.
> > > > > > > Тел.: 8
> > > > > > > (495) 788-56-99, доб. 8998
> > > > > > > _______________________________________________
> > > > > > > hpc mailing list
> > > > > > > hpc at lists.mephi.ru
> > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > >
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > >
> > > > > --
> > > > > С уважением,
> > > > > инженер отдела Unix-технологий МИФИ,
> > > > > Аникеев Артём.
> > > > > Тел.: 8
> > > > > (495) 788-56-99, доб. 8998
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > >
> > > --
> > > С уважением,
> > > инженер отдела Unix-технологий МИФИ,
> > > Аникеев Артём.
> > > Тел.: 8
> > > (495) 788-56-99, доб. 8998
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> >
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20190208/37673948/attachment-0001.html>


More information about the hpc mailing list