<div dir="auto"><div>Да, программа собрана под 32-битный mpi и по-другому никак. Этот неправильно собранный mvapich дал мне автор программы, в таком виде оно работало… какое-то время. Странно, что идет обращение к 64-битной библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И главное - такое сообщение вылезает и при нормальном завершении задачи, автор говорил, что на него не надо обращать внимания.<br><br>Спасибо, что разбираетесь с моей проблемой.</div><div dir="auto"><br><div class="gmail_quote" dir="auto"><div dir="ltr">вт, 5 фев 2019 г., 16:35 anikeev <<a href="mailto:anikeev@ut.mephi.ru">anikeev@ut.mephi.ru</a>>:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:<br>
<br>
На cherenkov у Вас сломана логика работы с mvapich2 - он запускается в<br>
1 поток вне зависимости от аргументов. У Вас очень сложная система<br>
запуска задач - больше 4-х последовательных shell интерпретаторов. <br>
Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему<br>
запуска до одного скрипта оставив максимальное возможно количество<br>
опций запуска статичными (явно прописанными руками, а не генерируемыми<br>
при запуске).<br>
<br>
По моему опыту работы с большими задачами скрипты запуска лучше всегда<br>
генерировать и сохранять в виде самодостаточных статичных временных<br>
файлов. Это значительно упрощает отладку. Это просто совет, это не<br>
требование.<br>
<br>
Далее, mvapich2 неправильно собран и не может использовать сеть:<br>
<br>
freidzon@master.cherenkov /mnt/pool/3/freidzon/work/test_by_anikeev $<br>
cat run_ff_cherenkov.e142221<br>
libibverbs: Warning: couldn't load driver<br>
'/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-rdmav2.so:<br>
wrong ELF class: ELFCLASS64<br>
<br>
Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не может<br>
использовать системные 64-битные amd64 библиотеки и драйверы кластера.<br>
32-битные multilib версии есть только у незначительного числа<br>
библиотек, они явно указаны в dpkg. libibverbs не имеет multilib<br>
версии.<br>
<br>
На basov проблему увидел, провожу отладку.<br>
<br>
> /mnt/pool/[1,3]/freidzon/work<br>
> Только там скрипты называются просто run_ff_  и qff_short, без<br>
> приписок _basov и _cherenkov<br>
> <br>
> вт, 5 фев 2019 г., 10:58 anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a>>:<br>
> > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:<br>
> > <br>
> > Добрый день!<br>
> > <br>
> > > Собрала архив с файлами (входные + скрипты), получилось 4 Мб,<br>
> > система<br>
> > > не хочет отправлять. Я в hpc-privat отправлю?<br>
> > <br>
> > Просто напишите в какой директории на кластере их можно взять.<br>
> > <br>
> > > пн, 4 февр. 2019 г. в 10:55, anikeev <<a href="mailto:anikeev@ut.mephi.ru" target="_blank" rel="noreferrer">anikeev@ut.mephi.ru</a>>:<br>
> > > > <br>
> > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:<br>
> > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon wrote:<br>
> > > > > > Добрый день,<br>
> > > > > <br>
> > > > > Здравствуйте!<br>
> > > > > <br>
> > > > > > Я работаю с программой FireFly. С какого-то момента (честно<br>
> > > > > > говоря,<br>
> > > > > > не<br>
> > > > > > знаю с какого, точно после июля) программа стала вылетать<br>
> > через<br>
> > > > > > примерно 30-40 минут работы, а то и раньше (даже одна<br>
> > задача на<br>
> > > > > > одной<br>
> > > > > > и той же ноде слетает через разное время). Проблема есть и<br>
> > на<br>
> > > > > > Басове,<br>
> > > > > > и на Черенкове, т.е., не зависит ни от конкретной сборки<br>
> > > > > > программы<br>
> > > > > > (басовская под mpich1, черенковская под mvapich2), ни от<br>
> > версии<br>
> > > > > > Линукса, ни от реализации mpi. Никаких особых сообщений в<br>
> > > > > > файлах<br>
> > > > > > firefly.o* и firefly.e*, отличных от сообщений при<br>
> > корректном<br>
> > > > > > завершении задачи, нет. В самом выходном файле программы<br>
> > тоже<br>
> > > > > > ничего,<br>
> > > > > > просто обрыв -- и все.<br>
> > > > > <br>
> > > > > Вне нужна возможность повторить проблему самостоятельно. Как<br>
> > > > > именно<br>
> > > > > Вы<br>
> > > > > запускает задачу? У Вас есть готовый скрипт?<br>
> > > > <br>
> > > > *Мне<br>
> > > > <br>
> > > > Прошу прощения за опечатку.<br>
> > > > <br>
> > > > > > Что можно с этим сделать? Другие пользователи группы<br>
> > kintech<br>
> > > > > > тоже<br>
> > > > > > хотели бы работать с FireFly, но теперь это практически<br>
> > > > > > невозможно...<br>
> > > > > > <br>
> > > > > > С уважением,<br>
> > > > > > А. Фрейдзон<br>
> > > > > > _______________________________________________<br>
> > > > > > hpc mailing list<br>
> > > > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > > <br>
> > > > --<br>
> > > > С уважением,<br>
> > > > инженер отдела Unix-технологий МИФИ,<br>
> > > > Аникеев Артём.<br>
> > > > Тел.: 8<br>
> > > > (495) 788-56-99, доб. 8998<br>
> > > > _______________________________________________<br>
> > > > hpc mailing list<br>
> > > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > > <br>
> > > _______________________________________________<br>
> > > hpc mailing list<br>
> > > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > _______________________________________________<br>
> > hpc mailing list<br>
> > <a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
> > <a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
> > <br>
-- <br>
С уважением,<br>
инженер отдела Unix-технологий МИФИ,<br>
Аникеев Артём.<br>
Тел.: 8<br>
(495) 788-56-99, доб. 8998<br>
_______________________________________________<br>
hpc mailing list<br>
<a href="mailto:hpc@lists.mephi.ru" target="_blank" rel="noreferrer">hpc@lists.mephi.ru</a><br>
<a href="https://lists.mephi.ru/listinfo/hpc" rel="noreferrer noreferrer" target="_blank">https://lists.mephi.ru/listinfo/hpc</a><br>
</blockquote></div></div></div>