[mephi-hpc] Проблема с работой программы

Alexandra Freidzon freidzon.sanya at gmail.com
Tue Feb 5 17:18:41 MSK 2019


Да, программа собрана под 32-битный mpi и по-другому никак. Этот
неправильно собранный mvapich дал мне автор программы, в таком виде оно
работало… какое-то время. Странно, что идет обращение к 64-битной
библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И главное -
такое сообщение вылезает и при нормальном завершении задачи, автор говорил,
что на него не надо обращать внимания.

Спасибо, что разбираетесь с моей проблемой.

вт, 5 фев 2019 г., 16:35 anikeev <anikeev at ut.mephi.ru>:

> On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:
>
> На cherenkov у Вас сломана логика работы с mvapich2 - он запускается в
> 1 поток вне зависимости от аргументов. У Вас очень сложная система
> запуска задач - больше 4-х последовательных shell интерпретаторов.
> Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему
> запуска до одного скрипта оставив максимальное возможно количество
> опций запуска статичными (явно прописанными руками, а не генерируемыми
> при запуске).
>
> По моему опыту работы с большими задачами скрипты запуска лучше всегда
> генерировать и сохранять в виде самодостаточных статичных временных
> файлов. Это значительно упрощает отладку. Это просто совет, это не
> требование.
>
> Далее, mvapich2 неправильно собран и не может использовать сеть:
>
> freidzon at master.cherenkov /mnt/pool/3/freidzon/work/test_by_anikeev $
> cat run_ff_cherenkov.e142221
> libibverbs: Warning: couldn't load driver
> '/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-rdmav2.so:
> wrong ELF class: ELFCLASS64
>
> Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не может
> использовать системные 64-битные amd64 библиотеки и драйверы кластера.
> 32-битные multilib версии есть только у незначительного числа
> библиотек, они явно указаны в dpkg. libibverbs не имеет multilib
> версии.
>
> На basov проблему увидел, провожу отладку.
>
> > /mnt/pool/[1,3]/freidzon/work
> > Только там скрипты называются просто run_ff_  и qff_short, без
> > приписок _basov и _cherenkov
> >
> > вт, 5 фев 2019 г., 10:58 anikeev <anikeev at ut.mephi.ru>:
> > > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:
> > >
> > > Добрый день!
> > >
> > > > Собрала архив с файлами (входные + скрипты), получилось 4 Мб,
> > > система
> > > > не хочет отправлять. Я в hpc-privat отправлю?
> > >
> > > Просто напишите в какой директории на кластере их можно взять.
> > >
> > > > пн, 4 февр. 2019 г. в 10:55, anikeev <anikeev at ut.mephi.ru>:
> > > > >
> > > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:
> > > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon wrote:
> > > > > > > Добрый день,
> > > > > >
> > > > > > Здравствуйте!
> > > > > >
> > > > > > > Я работаю с программой FireFly. С какого-то момента (честно
> > > > > > > говоря,
> > > > > > > не
> > > > > > > знаю с какого, точно после июля) программа стала вылетать
> > > через
> > > > > > > примерно 30-40 минут работы, а то и раньше (даже одна
> > > задача на
> > > > > > > одной
> > > > > > > и той же ноде слетает через разное время). Проблема есть и
> > > на
> > > > > > > Басове,
> > > > > > > и на Черенкове, т.е., не зависит ни от конкретной сборки
> > > > > > > программы
> > > > > > > (басовская под mpich1, черенковская под mvapich2), ни от
> > > версии
> > > > > > > Линукса, ни от реализации mpi. Никаких особых сообщений в
> > > > > > > файлах
> > > > > > > firefly.o* и firefly.e*, отличных от сообщений при
> > > корректном
> > > > > > > завершении задачи, нет. В самом выходном файле программы
> > > тоже
> > > > > > > ничего,
> > > > > > > просто обрыв -- и все.
> > > > > >
> > > > > > Вне нужна возможность повторить проблему самостоятельно. Как
> > > > > > именно
> > > > > > Вы
> > > > > > запускает задачу? У Вас есть готовый скрипт?
> > > > >
> > > > > *Мне
> > > > >
> > > > > Прошу прощения за опечатку.
> > > > >
> > > > > > > Что можно с этим сделать? Другие пользователи группы
> > > kintech
> > > > > > > тоже
> > > > > > > хотели бы работать с FireFly, но теперь это практически
> > > > > > > невозможно...
> > > > > > >
> > > > > > > С уважением,
> > > > > > > А. Фрейдзон
> > > > > > > _______________________________________________
> > > > > > > hpc mailing list
> > > > > > > hpc at lists.mephi.ru
> > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > >
> > > > > --
> > > > > С уважением,
> > > > > инженер отдела Unix-технологий МИФИ,
> > > > > Аникеев Артём.
> > > > > Тел.: 8
> > > > > (495) 788-56-99, доб. 8998
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > >
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20190205/97e29948/attachment-0001.html>


More information about the hpc mailing list