<div dir="auto">Спасибо, вечером буду разбираться</div><br><div class="gmail_quote"><div dir="ltr">пт, 8 фев 2019 г., 16:25 anikeev <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Fri, 2019-02-08 at 16:02 +0300, Alexandra Freidzon wrote:<br>
> Ну, если строго одна и та же задача (без всякого элемента<br>
> случайности)<br>
> слетает на разных итерациях (то на 5-й, то на 39-й) или успешно<br>
> проходит в зависимости от мгновенного положения небесных светил или<br>
> системного таймера... ну что это?<br>
<br>
Нужно выяснить, на чем подвивает программа. Зависания - это<br>
ненормально. Меняется не поведение менеджера ресурсов, меняется<br>
поведение программы.<br>
<br>
На cherenkov perf уже стоит, на basov и uniclsuster поставил.<br>
<br>
Руководство пользователя по программе здесь:<br>
<br>
<a href="https://perf.wiki.kernel.org/index.php/Tutorial#Sampling_with_perf_reco" rel="noreferrer noreferrer" target="_blank">https://perf.wiki.kernel.org/index.php/Tutorial#Sampling_with_perf_reco</a><br>
rd<br>
<br>
Если коротко, то программа пересобирается с опцией -ggdb3 и<br>
запускается:<br>
<br>
perf reocrd ./a.out<br>
<br>
По завершении собранную статистику можно посмотреть<br>
<br>
perf report<br>
<br>
в той же директории. Там создаются временные файлы. Если программу не<br>
пересобирать с -ggdb3, то вместо названий функций в статистике будут<br>
использоваться их бинарные адреса.<br>
<br>
Если Вы запускаете много экземпляров задач, которые пишут на один<br>
носитель, то у Вас может возникать проблема с производительностью<br>
хранилищ. Для отладки этого сценария нужно запускать сразу много задач.<br>
<br>
> пт, 8 февр. 2019 г. в 16:00, anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a>>:<br>
> > <br>
> > On Fri, 2019-02-08 at 15:53 +0300, Alexandra Freidzon wrote:<br>
> > > Не, я уверена, что дело не в этом, но с perf попробую<br>
> > > разобраться.<br>
> > > Слетает задача довольно быстро, может даже через 5 минут после<br>
> > > начала,<br>
> > > а может -- за пару минут до предполагаемого конца. Действия при<br>
> > > этом<br>
> > > программа выполняет однотипные.<br>
> > <br>
> > Да, эта задача убита по причине использования менее 10% ресурсов.<br>
> > Это<br>
> > проблема производительности. Видимо, действия не совсем однотипные.<br>
> > <br>
> > > Вот прямо сейчас: запустила задачу 451787 в 15:26, а в 15:50 уже<br>
> > > слетела.<br>
> > > <br>
> > > пт, 8 февр. 2019 г. в 15:49, anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a>>:<br>
> > > > <br>
> > > > On Fri, 2019-02-08 at 15:26 +0300, Alexandra Freidzon wrote:<br>
> > > > > Ну да, так они и слетают. А через минуту те же задачи на той<br>
> > > > > же<br>
> > > > > ноде<br>
> > > > > успешно проходят. Это и есть проблема.<br>
> > > > <br>
> > > > Тогда Вам нужно разбираться с производительностью. Для<br>
> > > > профилирования<br>
> > > > можно использовать утилиту perf. Если задача большую часть<br>
> > > > времени<br>
> > > > проводит в последовательном участке алгоритма, то смысла в<br>
> > > > параллелизме<br>
> > > > нет. 90% простой ресурсов для HPC кластеров неприемлем.<br>
> > > > <br>
> > > > Я сегодня добавлю амнистию на первый час работы программы,<br>
> > > > чтобы<br>
> > > > дать<br>
> > > > запас на последовательный ввод данных с диска. Но лимит<br>
> > > > эффективности в<br>
> > > > 10% и так слишком либерален.<br>
> > > > <br>
> > > > > пт, 8 февр. 2019 г. в 14:26, anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a>>:<br>
> > > > > > <br>
> > > > > > On Wed, 2019-02-06 at 21:14 +0300, Alexandra Freidzon<br>
> > > > > > wrote:<br>
> > > > > > <br>
> > > > > > Добрый день!<br>
> > > > > > <br>
> > > > > > > Со статической версией проблем, думаю, не будет. У меня<br>
> > > > > > > была<br>
> > > > > > > бета,<br>
> > > > > > > она<br>
> > > > > > > прекрасно работала, пока у нее срок не вышел. Вот сейчас<br>
> > > > > > > новую<br>
> > > > > > > дадут,<br>
> > > > > > > надеюсь. Тогда можно будет совсем забить на<br>
> > > > > > > взаимодействие с<br>
> > > > > > > сетью.<br>
> > > > > > <br>
> > > > > > Кстати, Ваши задачи 451584 и 451583 были принудительно<br>
> > > > > > завершены,<br>
> > > > > > поскольку потребляли менее 10% от запрошенных ресурсов и<br>
> > > > > > расценены<br>
> > > > > > как<br>
> > > > > > зависшие.<br>
> > > > > > <br>
> > > > > > > ср, 6 февр. 2019 г. в 19:39, anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a><br>
> > > > > > > >:<br>
> > > > > > > > <br>
> > > > > > > > > > > Basov:<br>
> > > > > > > > > > > Проверьте, пожалуйста, результат работы программы<br>
> > > > > > > > > > > в<br>
> > > > > > > > > > > директории:<br>
> > > > > > > > > > > /mnt/pool/1/freidzon/work/test_by_anikeev/anthrac<br>
> > > > > > > > > > > ene_<br>
> > > > > > > > > > > pair<br>
> > > > > > > > > > > 3A_m<br>
> > > > > > > > > > > cq_/<br>
> > > > > > > > > > <br>
> > > > > > > > > > Да, тест прошел успешно.<br>
> > > > > > > > > <br>
> > > > > > > > > Понятно, будем работать дальше.<br>
> > > > > > > > > <br>
> > > > > > > > > > > Я запустил Вашу программу с отладчиком gdb и<br>
> > > > > > > > > > > похоже,<br>
> > > > > > > > > > > что<br>
> > > > > > > > > > > она<br>
> > > > > > > > > > > отработала<br>
> > > > > > > > > > > успешно. Это довольно неприятный вид ошибок,<br>
> > > > > > > > > > > когда<br>
> > > > > > > > > > > использования<br>
> > > > > > > > > > > отладчика исправляет проблему, что не позволяет<br>
> > > > > > > > > > > эту<br>
> > > > > > > > > > > проблему<br>
> > > > > > > > > > > обнаружить... Но для таких случаев тоже есть<br>
> > > > > > > > > > > методы.<br>
> > > > > > > > > > > Для<br>
> > > > > > > > > > > продолжения<br>
> > > > > > > > > > > работы нужно убедиться, что результат работы с<br>
> > > > > > > > > > > gdb<br>
> > > > > > > > > > > корректен.<br>
> > > > > > > > > > <br>
> > > > > > > > > > Я посоветовалась с автором программы, он пообещал<br>
> > > > > > > > > > сделать<br>
> > > > > > > > > > полностью<br>
> > > > > > > > > > статическую версию, не зависящую от MPI на обоих<br>
> > > > > > > > > > кластерах.<br>
> > > > > > > > > > Он<br>
> > > > > > > > > > считает, что тогда вообще все проблемы решатся и<br>
> > > > > > > > > > разбираться с<br>
> > > > > > > > > > MPI<br>
> > > > > > > > > > не<br>
> > > > > > > > > > придется. Посмотрим.<br>
> > > > > > > > <br>
> > > > > > > > Для дальнейшей отладки необходимо собрать программу с<br>
> > > > > > > > опциями<br>
> > > > > > > > компилятора -O0 -ggdb3. Если будет собираться<br>
> > > > > > > > статическая<br>
> > > > > > > > версия,<br>
> > > > > > > > то<br>
> > > > > > > > можно сразу сделать две - одну с оптимизациями и одну<br>
> > > > > > > > для<br>
> > > > > > > > отладки<br>
> > > > > > > > (с<br>
> > > > > > > > указанными опциями).<br>
> > > > > > > > <br>
> > > > > > > > > > _______________________________________________<br>
> > > > > > > > > > hpc mailing list<br>
> > > > > > > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > > > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > > > > > <br>
> > > > > > > > --<br>
> > > > > > > > С уважением,<br>
> > > > > > > > инженер отдела Unix-технологий МИФИ,<br>
> > > > > > > > Аникеев Артём.<br>
> > > > > > > > Тел.: 8<br>
> > > > > > > > (495) 788-56-99, доб. 8998<br>
> > > > > > > > _______________________________________________<br>
> > > > > > > > hpc mailing list<br>
> > > > > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > > > > <br>
> > > > > > > _______________________________________________<br>
> > > > > > > hpc mailing list<br>
> > > > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > > > <br>
> > > > > > --<br>
> > > > > > С уважением,<br>
> > > > > > инженер отдела Unix-технологий МИФИ,<br>
> > > > > > Аникеев Артём.<br>
> > > > > > Тел.: 8<br>
> > > > > > (495) 788-56-99, доб. 8998<br>
> > > > > > _______________________________________________<br>
> > > > > > hpc mailing list<br>
> > > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > > <br>
> > > > > _______________________________________________<br>
> > > > > hpc mailing list<br>
> > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > <br>
> > > > --<br>
> > > > С уважением,<br>
> > > > инженер отдела Unix-технологий МИФИ,<br>
> > > > Аникеев Артём.<br>
> > > > Тел.: 8<br>
> > > > (495) 788-56-99, доб. 8998<br>
> > > > _______________________________________________<br>
> > > > hpc mailing list<br>
> > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > <br>
> > > _______________________________________________<br>
> > > hpc mailing list<br>
> > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > <br>
> > --<br>
> > С уважением,<br>
> > инженер отдела Unix-технологий МИФИ,<br>
> > Аникеев Артём.<br>
> > Тел.: 8<br>
> > (495) 788-56-99, доб. 8998<br>
> > _______________________________________________<br>
> > hpc mailing list<br>
> > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> <br>
> _______________________________________________<br>
> hpc mailing list<br>
> <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
-- <br>
С уважением,<br>
инженер отдела Unix-технологий МИФИ,<br>
Аникеев Артём.<br>
Тел.: 8<br>
(495) 788-56-99, доб. 8998<br>
_______________________________________________<br>
hpc mailing list<br>
<a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
<a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
</blockquote></div>