[mephi-hpc] Проблема с работой программы

anikeev anikeev at ut.mephi.ru
Wed Feb 6 11:52:58 MSK 2019


On Tue, 2019-02-05 at 17:18 +0300, Alexandra Freidzon wrote:
> Да, программа собрана под 32-битный mpi и по-другому никак. Этот
> неправильно собранный mvapich дал мне автор программы, в таком виде
> оно работало… какое-то время. Странно, что идет обращение к 64-битной 
> библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И
> главное - такое сообщение вылезает и при нормальном завершении
> задачи, автор говорил, что на него не надо обращать внимания.
> 
> Спасибо, что разбираетесь с моей проблемой.

Добрый день!

Cherenkov:

32-bit библиотека не может использовать 64-bit драйвер никак. Драйвер
есть только 64-bit. Задача могла работать если mvapich2 был
сконфигурирован для локальной работы без использования сети (чтобы он
даже не пытался загрузить этот драйвер). Или если она запускалась в
один поток без mpirun - такая возможность предусмотрена стандартом MPI.
Возможно, Вы использовали OpenMPI из 32-bit chroot-окружения?

В любом случае, это нужно исправить. Возможные пути:

1) Смириться с однопоточностью и не использовать mpirun
2) Настраивать mvapich2 для работы без ошибок без использования сети.
Проще всего отключить все сетевые протоколы на этапе configure.
Конечно, в этом случае логичнее использовать OpenMP, но я не уверен,
что его поддерживает firefly.
3) Использовать передачу MPI сообщений через IPoIB, вместо ibverbs. Но
этот способ сведёт на нет преимущества IB коммутатора cherenkov для
Ваших задач.

Basov:

Проверьте, пожалуйста, результат работы программы в директории:

/mnt/pool/1/freidzon/work/test_by_anikeev/anthracene_pair3A_mcq_/

Я запустил Вашу программу с отладчиком gdb и похоже, что она отработала
успешно. Это довольно неприятный вид ошибок, когда использования
отладчика исправляет проблему, что не позволяет эту проблему
обнаружить... Но для таких случаев тоже есть методы. Для продолжения
работы нужно убедиться, что результат работы с gdb корректен.

> вт, 5 фев 2019 г., 16:35 anikeev <anikeev at ut.mephi.ru>:
> > On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:
> > 
> > На cherenkov у Вас сломана логика работы с mvapich2 - он
> > запускается в
> > 1 поток вне зависимости от аргументов. У Вас очень сложная система
> > запуска задач - больше 4-х последовательных shell интерпретаторов. 
> > Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему
> > запуска до одного скрипта оставив максимальное возможно количество
> > опций запуска статичными (явно прописанными руками, а не
> > генерируемыми
> > при запуске).
> > 
> > По моему опыту работы с большими задачами скрипты запуска лучше
> > всегда
> > генерировать и сохранять в виде самодостаточных статичных временных
> > файлов. Это значительно упрощает отладку. Это просто совет, это не
> > требование.
> > 
> > Далее, mvapich2 неправильно собран и не может использовать сеть:
> > 
> > freidzon at master.cherenkov /mnt/pool/3/freidzon/work/test_by_anikeev
> > $
> > cat run_ff_cherenkov.e142221
> > libibverbs: Warning: couldn't load driver
> > '/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-
> > rdmav2.so:
> > wrong ELF class: ELFCLASS64
> > 
> > Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не
> > может
> > использовать системные 64-битные amd64 библиотеки и драйверы
> > кластера.
> > 32-битные multilib версии есть только у незначительного числа
> > библиотек, они явно указаны в dpkg. libibverbs не имеет multilib
> > версии.
> > 
> > На basov проблему увидел, провожу отладку.
> > 
> > > /mnt/pool/[1,3]/freidzon/work
> > > Только там скрипты называются просто run_ff_  и qff_short, без
> > > приписок _basov и _cherenkov
> > > 
> > > вт, 5 фев 2019 г., 10:58 anikeev <anikeev at ut.mephi.ru>:
> > > > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:
> > > > 
> > > > Добрый день!
> > > > 
> > > > > Собрала архив с файлами (входные + скрипты), получилось 4 Мб,
> > > > система
> > > > > не хочет отправлять. Я в hpc-privat отправлю?
> > > > 
> > > > Просто напишите в какой директории на кластере их можно взять.
> > > > 
> > > > > пн, 4 февр. 2019 г. в 10:55, anikeev <anikeev at ut.mephi.ru>:
> > > > > > 
> > > > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:
> > > > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon
> > wrote:
> > > > > > > > Добрый день,
> > > > > > > 
> > > > > > > Здравствуйте!
> > > > > > > 
> > > > > > > > Я работаю с программой FireFly. С какого-то момента
> > (честно
> > > > > > > > говоря,
> > > > > > > > не
> > > > > > > > знаю с какого, точно после июля) программа стала
> > вылетать
> > > > через
> > > > > > > > примерно 30-40 минут работы, а то и раньше (даже одна
> > > > задача на
> > > > > > > > одной
> > > > > > > > и той же ноде слетает через разное время). Проблема
> > есть и
> > > > на
> > > > > > > > Басове,
> > > > > > > > и на Черенкове, т.е., не зависит ни от конкретной
> > сборки
> > > > > > > > программы
> > > > > > > > (басовская под mpich1, черенковская под mvapich2), ни
> > от
> > > > версии
> > > > > > > > Линукса, ни от реализации mpi. Никаких особых сообщений
> > в
> > > > > > > > файлах
> > > > > > > > firefly.o* и firefly.e*, отличных от сообщений при
> > > > корректном
> > > > > > > > завершении задачи, нет. В самом выходном файле
> > программы
> > > > тоже
> > > > > > > > ничего,
> > > > > > > > просто обрыв -- и все.
> > > > > > > 
> > > > > > > Вне нужна возможность повторить проблему самостоятельно.
> > Как
> > > > > > > именно
> > > > > > > Вы
> > > > > > > запускает задачу? У Вас есть готовый скрипт?
> > > > > > 
> > > > > > *Мне
> > > > > > 
> > > > > > Прошу прощения за опечатку.
> > > > > > 
> > > > > > > > Что можно с этим сделать? Другие пользователи группы
> > > > kintech
> > > > > > > > тоже
> > > > > > > > хотели бы работать с FireFly, но теперь это практически
> > > > > > > > невозможно...
> > > > > > > > 
> > > > > > > > С уважением,
> > > > > > > > А. Фрейдзон
> > > > > > > > _______________________________________________
> > > > > > > > hpc mailing list
> > > > > > > > hpc at lists.mephi.ru
> > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > 
> > > > > > --
> > > > > > С уважением,
> > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > Аникеев Артём.
> > > > > > Тел.: 8
> > > > > > (495) 788-56-99, доб. 8998
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > 
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > > 
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> > 
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list