[mephi-hpc] Проблема с работой программы

anikeev anikeev at ut.mephi.ru
Tue Feb 5 16:35:39 MSK 2019


On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:

На cherenkov у Вас сломана логика работы с mvapich2 - он запускается в
1 поток вне зависимости от аргументов. У Вас очень сложная система
запуска задач - больше 4-х последовательных shell интерпретаторов. 
Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему
запуска до одного скрипта оставив максимальное возможно количество
опций запуска статичными (явно прописанными руками, а не генерируемыми
при запуске).

По моему опыту работы с большими задачами скрипты запуска лучше всегда
генерировать и сохранять в виде самодостаточных статичных временных
файлов. Это значительно упрощает отладку. Это просто совет, это не
требование.

Далее, mvapich2 неправильно собран и не может использовать сеть:

freidzon at master.cherenkov /mnt/pool/3/freidzon/work/test_by_anikeev $
cat run_ff_cherenkov.e142221
libibverbs: Warning: couldn't load driver
'/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-rdmav2.so:
wrong ELF class: ELFCLASS64

Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не может
использовать системные 64-битные amd64 библиотеки и драйверы кластера.
32-битные multilib версии есть только у незначительного числа
библиотек, они явно указаны в dpkg. libibverbs не имеет multilib
версии.

На basov проблему увидел, провожу отладку.

> /mnt/pool/[1,3]/freidzon/work
> Только там скрипты называются просто run_ff_  и qff_short, без
> приписок _basov и _cherenkov
> 
> вт, 5 фев 2019 г., 10:58 anikeev <anikeev at ut.mephi.ru>:
> > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:
> > 
> > Добрый день!
> > 
> > > Собрала архив с файлами (входные + скрипты), получилось 4 Мб,
> > система
> > > не хочет отправлять. Я в hpc-privat отправлю?
> > 
> > Просто напишите в какой директории на кластере их можно взять.
> > 
> > > пн, 4 февр. 2019 г. в 10:55, anikeev <anikeev at ut.mephi.ru>:
> > > > 
> > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:
> > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon wrote:
> > > > > > Добрый день,
> > > > > 
> > > > > Здравствуйте!
> > > > > 
> > > > > > Я работаю с программой FireFly. С какого-то момента (честно
> > > > > > говоря,
> > > > > > не
> > > > > > знаю с какого, точно после июля) программа стала вылетать
> > через
> > > > > > примерно 30-40 минут работы, а то и раньше (даже одна
> > задача на
> > > > > > одной
> > > > > > и той же ноде слетает через разное время). Проблема есть и
> > на
> > > > > > Басове,
> > > > > > и на Черенкове, т.е., не зависит ни от конкретной сборки
> > > > > > программы
> > > > > > (басовская под mpich1, черенковская под mvapich2), ни от
> > версии
> > > > > > Линукса, ни от реализации mpi. Никаких особых сообщений в
> > > > > > файлах
> > > > > > firefly.o* и firefly.e*, отличных от сообщений при
> > корректном
> > > > > > завершении задачи, нет. В самом выходном файле программы
> > тоже
> > > > > > ничего,
> > > > > > просто обрыв -- и все.
> > > > > 
> > > > > Вне нужна возможность повторить проблему самостоятельно. Как
> > > > > именно
> > > > > Вы
> > > > > запускает задачу? У Вас есть готовый скрипт?
> > > > 
> > > > *Мне
> > > > 
> > > > Прошу прощения за опечатку.
> > > > 
> > > > > > Что можно с этим сделать? Другие пользователи группы
> > kintech
> > > > > > тоже
> > > > > > хотели бы работать с FireFly, но теперь это практически
> > > > > > невозможно...
> > > > > > 
> > > > > > С уважением,
> > > > > > А. Фрейдзон
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > 
> > > > --
> > > > С уважением,
> > > > инженер отдела Unix-технологий МИФИ,
> > > > Аникеев Артём.
> > > > Тел.: 8
> > > > (495) 788-56-99, доб. 8998
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > 
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> > 
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list