Также, мне приходят ответы от Александры Фридзон<br /><br />11:53, 6 февраля 2019 г., anikeev <anikeev@ut.mephi.ru>:<br /><blockquote><p>On Tue, <span>2019-02-05</span> at 17:18 +0300, Alexandra Freidzon wrote:<br /></p><blockquote> Да, программа собрана под 32-битный mpi и по-другому никак. Этот<br /> неправильно собранный mvapich дал мне автор программы, в таком виде<br /> оно работало… какое-то время. Странно, что идет обращение к 64-битной <br /> библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И<br /> главное - такое сообщение вылезает и при нормальном завершении<br /> задачи, автор говорил, что на него не надо обращать внимания.<br /><br /> Спасибо, что разбираетесь с моей проблемой.<br /></blockquote><p><br />Добрый день!<br /><br />Cherenkov:<br /><br />32-bit библиотека не может использовать 64-bit драйвер никак. Драйвер<br />есть только 64-bit. Задача могла работать если mvapich2 был<br />сконфигурирован для локальной работы без использования сети (чтобы он<br />даже не пытался загрузить этот драйвер). Или если она запускалась в<br />один поток без mpirun - такая возможность предусмотрена стандартом MPI.<br />Возможно, Вы использовали OpenMPI из 32-bit chroot-окружения?<br /><br />В любом случае, это нужно исправить. Возможные пути:<br /><br />1) Смириться с однопоточностью и не использовать mpirun<br />2) Настраивать mvapich2 для работы без ошибок без использования сети.<br />Проще всего отключить все сетевые протоколы на этапе configure.<br />Конечно, в этом случае логичнее использовать OpenMP, но я не уверен,<br />что его поддерживает firefly.<br />3) Использовать передачу MPI сообщений через IPoIB, вместо ibverbs. Но<br />этот способ сведёт на нет преимущества IB коммутатора cherenkov для<br />Ваших задач.<br /><br />Basov:<br /><br />Проверьте, пожалуйста, результат работы программы в директории:<br /><br />/mnt/pool/1/freidzon/work/test_by_anikeev/anthracene_pair3A_mcq_/<br /><br />Я запустил Вашу программу с отладчиком gdb и похоже, что она отработала<br />успешно. Это довольно неприятный вид ошибок, когда использования<br />отладчика исправляет проблему, что не позволяет эту проблему<br />обнаружить... Но для таких случаев тоже есть методы. Для продолжения<br />работы нужно убедиться, что результат работы с gdb корректен.<br /><br /></p><blockquote> вт, 5 фев 2019 г., 16:35 anikeev <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br /> > On Tue, <span>2019-02-05</span> at 11:02 +0300, Alexandra Freidzon wrote:<br /> > <br /> > На cherenkov у Вас сломана логика работы с mvapich2 - он<br /> > запускается в<br /> > 1 поток вне зависимости от аргументов. У Вас очень сложная система<br /> > запуска задач - больше 4-х последовательных shell интерпретаторов. <br /> > Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему<br /> > запуска до одного скрипта оставив максимальное возможно количество<br /> > опций запуска статичными (явно прописанными руками, а не<br /> > генерируемыми<br /> > при запуске).<br /> > <br /> > По моему опыту работы с большими задачами скрипты запуска лучше<br /> > всегда<br /> > генерировать и сохранять в виде самодостаточных статичных временных<br /> > файлов. Это значительно упрощает отладку. Это просто совет, это не<br /> > требование.<br /> > <br /> > Далее, mvapich2 неправильно собран и не может использовать сеть:<br /> > <br /> > <a href="mailto:freidzon@master.cherenkov">freidzon@master.cherenkov</a> /mnt/pool/3/freidzon/work/test_by_anikeev<br /> > $<br /> > cat run_ff_cherenkov.e142221<br /> > libibverbs: Warning: couldn't load driver<br /> > '/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-<br /> > rdmav2.so:<br /> > wrong ELF class: ELFCLASS64<br /> > <br /> > Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не<br /> > может<br /> > использовать системные 64-битные amd64 библиотеки и драйверы<br /> > кластера.<br /> > 32-битные multilib версии есть только у незначительного числа<br /> > библиотек, они явно указаны в dpkg. libibverbs не имеет multilib<br /> > версии.<br /> > <br /> > На basov проблему увидел, провожу отладку.<br /> > <br /> > > /mnt/pool/[1,3]/freidzon/work<br /> > > Только там скрипты называются просто run_ff_  и qff_short, без<br /> > > приписок _basov и _cherenkov<br /> > > <br /> > > вт, 5 фев 2019 г., 10:58 anikeev <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br /> > > > On Mon, <span>2019-02-04</span> at 22:57 +0300, Alexandra Freidzon wrote:<br /> > > > <br /> > > > Добрый день!<br /> > > > <br /> > > > > Собрала архив с файлами (входные + скрипты), получилось 4 Мб,<br /> > > > система<br /> > > > > не хочет отправлять. Я в hpc-privat отправлю?<br /> > > > <br /> > > > Просто напишите в какой директории на кластере их можно взять.<br /> > > > <br /> > > > > пн, 4 февр. 2019 г. в 10:55, anikeev <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br /> > > > > > <br /> > > > > > On Mon, <span>2019-02-04</span> at 10:53 +0300, anikeev wrote:<br /> > > > > > > On Sat, <span>2019-02-02</span> at 08:21 +0300, Alexandra Freidzon<br /> > wrote:<br /> > > > > > > > Добрый день,<br /> > > > > > > <br /> > > > > > > Здравствуйте!<br /> > > > > > > <br /> > > > > > > > Я работаю с программой FireFly. С какого-то момента<br /> > (честно<br /> > > > > > > > говоря,<br /> > > > > > > > не<br /> > > > > > > > знаю с какого, точно после июля) программа стала<br /> > вылетать<br /> > > > через<br /> > > > > > > > примерно 30-40 минут работы, а то и раньше (даже одна<br /> > > > задача на<br /> > > > > > > > одной<br /> > > > > > > > и той же ноде слетает через разное время). Проблема<br /> > есть и<br /> > > > на<br /> > > > > > > > Басове,<br /> > > > > > > > и на Черенкове, т.е., не зависит ни от конкретной<br /> > сборки<br /> > > > > > > > программы<br /> > > > > > > > (басовская под mpich1, черенковская под mvapich2), ни<br /> > от<br /> > > > версии<br /> > > > > > > > Линукса, ни от реализации mpi. Никаких особых сообщений<br /> > в<br /> > > > > > > > файлах<br /> > > > > > > > firefly.o* и firefly.e*, отличных от сообщений при<br /> > > > корректном<br /> > > > > > > > завершении задачи, нет. В самом выходном файле<br /> > программы<br /> > > > тоже<br /> > > > > > > > ничего,<br /> > > > > > > > просто обрыв -- и все.<br /> > > > > > > <br /> > > > > > > Вне нужна возможность повторить проблему самостоятельно.<br /> > Как<br /> > > > > > > именно<br /> > > > > > > Вы<br /> > > > > > > запускает задачу? У Вас есть готовый скрипт?<br /> > > > > > <br /> > > > > > *Мне<br /> > > > > > <br /> > > > > > Прошу прощения за опечатку.<br /> > > > > > <br /> > > > > > > > Что можно с этим сделать? Другие пользователи группы<br /> > > > kintech<br /> > > > > > > > тоже<br /> > > > > > > > хотели бы работать с FireFly, но теперь это практически<br /> > > > > > > > невозможно...<br /> > > > > > > > <br /> > > > > > > > С уважением,<br /> > > > > > > > А. Фрейдзон<br /> > > > > > > > _______________________________________________<br /> > > > > > > > hpc mailing list<br /> > > > > > > > <a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /> > > > > > > > <a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /> > > > > > <br /> > > > > > --<br /> > > > > > С уважением,<br /> > > > > > инженер отдела Unix-технологий МИФИ,<br /> > > > > > Аникеев Артём.<br /> > > > > > Тел.: 8<br /> > > > > > <span>(495) 788-56-99</span>, доб. 8998<br /> > > > > > _______________________________________________<br /> > > > > > hpc mailing list<br /> > > > > > <a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /> > > > > > <a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /> > > > > <br /> > > > > _______________________________________________<br /> > > > > hpc mailing list<br /> > > > > <a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /> > > > > <a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /> > > > _______________________________________________<br /> > > > hpc mailing list<br /> > > > <a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /> > > > <a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /> > > > <br /> > _______________________________________________<br /> > hpc mailing list<br /> > <a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /> > <a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /> > <br /></blockquote><span>-- <br />С уважением,<br />инженер отдела Unix-технологий МИФИ,<br />Аникеев Артём.<br />Тел.: 8<br /><span>(495) 788-56-99</span>, доб. 8998<br />_______________________________________________<br />hpc mailing list<br /><a href="mailto:hpc@lists.mephi.ru">hpc@lists.mephi.ru</a><br /><a href="https://lists.mephi.ru/listinfo/hpc">https://lists.mephi.ru/listinfo/hpc</a><br /></span></blockquote><br /><br />-- <br />Отправлено из мобильного приложения Яндекс.Почты