[mephi-hpc] Проблема с работой программы

anikeev anikeev at ut.mephi.ru
Wed Feb 6 16:02:34 MSK 2019


On Wed, 2019-02-06 at 15:14 +0300, Высоцкий Всеволод wrote:
> Добрый день.

Здравствуйте!

hpc at lists.mephi.ru - это лист рассылки. Сообщения, отправленные на этот
адрес получают все пользователи вычислительного центра. Непубличные
сообщения можно отправлять на адрес hpc-private at ut.mephi.ru . Способ
обращения выбирают пользователи, администраторы поддерживают оба
способа связи.

Для специфичных вопросов, не касающихся других пользователей, лучше
использовать hpc-private at ut.mephi.ru , но обращения на hpc at lists.mephi.
ru не запрещены.
 
> Вероятно, вы ошиблись адресатом сообщения, потому что у меня проблем
> с кластером не было. 
> 
> 11:53, 6 февраля 2019 г., anikeev <anikeev at ut.mephi.ru>:
> On Tue, 2019-02-05 at 17:18 +0300, Alexandra Freidzon wrote:
>  Да, программа собрана под 32-битный mpi и по-другому никак. Этот
>  неправильно собранный mvapich дал мне автор программы, в таком виде
>  оно работало… какое-то время. Странно, что идет обращение к 64-
> битной 
>  библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И
>  главное - такое сообщение вылезает и при нормальном завершении
>  задачи, автор говорил, что на него не надо обращать внимания.
> 
>  Спасибо, что разбираетесь с моей проблемой.
> 
> Добрый день!
> 
> Cherenkov:
> 
> 32-bit библиотека не может использовать 64-bit драйвер никак. Драйвер
> есть только 64-bit. Задача могла работать если mvapich2 был
> сконфигурирован для локальной работы без использования сети (чтобы он
> даже не пытался загрузить этот драйвер). Или если она запускалась в
> один поток без mpirun - такая возможность предусмотрена стандартом
> MPI.
> Возможно, Вы использовали OpenMPI из 32-bit chroot-окружения?
> 
> В любом случае, это нужно исправить. Возможные пути:
> 
> 1) Смириться с однопоточностью и не использовать mpirun
> 2) Настраивать mvapich2 для работы без ошибок без использования сети.
> Проще всего отключить все сетевые протоколы на этапе configure.
> Конечно, в этом случае логичнее использовать OpenMP, но я не уверен,
> что его поддерживает firefly.
> 3) Использовать передачу MPI сообщений через IPoIB, вместо ibverbs.
> Но
> этот способ сведёт на нет преимущества IB коммутатора cherenkov для
> Ваших задач.
> 
> Basov:
> 
> Проверьте, пожалуйста, результат работы программы в директории:
> 
> /mnt/pool/1/freidzon/work/test_by_anikeev/anthracene_pair3A_mcq_/
> 
> Я запустил Вашу программу с отладчиком gdb и похоже, что она
> отработала
> успешно. Это довольно неприятный вид ошибок, когда использования
> отладчика исправляет проблему, что не позволяет эту проблему
> обнаружить... Но для таких случаев тоже есть методы. Для продолжения
> работы нужно убедиться, что результат работы с gdb корректен.
> 
>  вт, 5 фев 2019 г., 16:35 anikeev <anikeev at ut.mephi.ru>:
>  > On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:
>  > 
>  > На cherenkov у Вас сломана логика работы с mvapich2 - он
>  > запускается в
>  > 1 поток вне зависимости от аргументов. У Вас очень сложная система
>  > запуска задач - больше 4-х последовательных shell
> интерпретаторов. 
>  > Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему
>  > запуска до одного скрипта оставив максимальное возможно количество
>  > опций запуска статичными (явно прописанными руками, а не
>  > генерируемыми
>  > при запуске).
>  > 
>  > По моему опыту работы с большими задачами скрипты запуска лучше
>  > всегда
>  > генерировать и сохранять в виде самодостаточных статичных
> временных
>  > файлов. Это значительно упрощает отладку. Это просто совет, это не
>  > требование.
>  > 
>  > Далее, mvapich2 неправильно собран и не может использовать сеть:
>  > 
>  > freidzon at master.cherenkov
> /mnt/pool/3/freidzon/work/test_by_anikeev
>  > $
>  > cat run_ff_cherenkov.e142221
>  > libibverbs: Warning: couldn't load driver
>  > '/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-
>  > rdmav2.so:
>  > wrong ELF class: ELFCLASS64
>  > 
>  > Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не
>  > может
>  > использовать системные 64-битные amd64 библиотеки и драйверы
>  > кластера.
>  > 32-битные multilib версии есть только у незначительного числа
>  > библиотек, они явно указаны в dpkg. libibverbs не имеет multilib
>  > версии.
>  > 
>  > На basov проблему увидел, провожу отладку.
>  > 
>  > > /mnt/pool/[1,3]/freidzon/work
>  > > Только там скрипты называются просто run_ff_  и qff_short, без
>  > > приписок _basov и _cherenkov
>  > > 
>  > > вт, 5 фев 2019 г., 10:58 anikeev <anikeev at ut.mephi.ru>:
>  > > > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:
>  > > > 
>  > > > Добрый день!
>  > > > 
>  > > > > Собрала архив с файлами (входные + скрипты), получилось 4
> Мб,
>  > > > система
>  > > > > не хочет отправлять. Я в hpc-privat отправлю?
>  > > > 
>  > > > Просто напишите в какой директории на кластере их можно взять.
>  > > > 
>  > > > > пн, 4 февр. 2019 г. в 10:55, anikeev <anikeev at ut.mephi.ru>:
>  > > > > > 
>  > > > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:
>  > > > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon
>  > wrote:
>  > > > > > > > Добрый день,
>  > > > > > > 
>  > > > > > > Здравствуйте!
>  > > > > > > 
>  > > > > > > > Я работаю с программой FireFly. С какого-то момента
>  > (честно
>  > > > > > > > говоря,
>  > > > > > > > не
>  > > > > > > > знаю с какого, точно после июля) программа стала
>  > вылетать
>  > > > через
>  > > > > > > > примерно 30-40 минут работы, а то и раньше (даже одна
>  > > > задача на
>  > > > > > > > одной
>  > > > > > > > и той же ноде слетает через разное время). Проблема
>  > есть и
>  > > > на
>  > > > > > > > Басове,
>  > > > > > > > и на Черенкове, т.е., не зависит ни от конкретной
>  > сборки
>  > > > > > > > программы
>  > > > > > > > (басовская под mpich1, черенковская под mvapich2), ни
>  > от
>  > > > версии
>  > > > > > > > Линукса, ни от реализации mpi. Никаких особых
> сообщений
>  > в
>  > > > > > > > файлах
>  > > > > > > > firefly.o* и firefly.e*, отличных от сообщений при
>  > > > корректном
>  > > > > > > > завершении задачи, нет. В самом выходном файле
>  > программы
>  > > > тоже
>  > > > > > > > ничего,
>  > > > > > > > просто обрыв -- и все.
>  > > > > > > 
>  > > > > > > Вне нужна возможность повторить проблему самостоятельно.
>  > Как
>  > > > > > > именно
>  > > > > > > Вы
>  > > > > > > запускает задачу? У Вас есть готовый скрипт?
>  > > > > > 
>  > > > > > *Мне
>  > > > > > 
>  > > > > > Прошу прощения за опечатку.
>  > > > > > 
>  > > > > > > > Что можно с этим сделать? Другие пользователи группы
>  > > > kintech
>  > > > > > > > тоже
>  > > > > > > > хотели бы работать с FireFly, но теперь это
> практически
>  > > > > > > > невозможно...
>  > > > > > > > 
>  > > > > > > > С уважением,
>  > > > > > > > А. Фрейдзон
>  > > > > > > > _______________________________________________
>  > > > > > > > hpc mailing list
>  > > > > > > > hpc at lists.mephi.ru
>  > > > > > > > https://lists.mephi.ru/listinfo/hpc
>  > > > > > 
>  > > > > > --
>  > > > > > С уважением,
>  > > > > > инженер отдела Unix-технологий МИФИ,
>  > > > > > Аникеев Артём.
>  > > > > > Тел.: 8
>  > > > > > (495) 788-56-99, доб. 8998
>  > > > > > _______________________________________________
>  > > > > > hpc mailing list
>  > > > > > hpc at lists.mephi.ru
>  > > > > > https://lists.mephi.ru/listinfo/hpc
>  > > > > 
>  > > > > _______________________________________________
>  > > > > hpc mailing list
>  > > > > hpc at lists.mephi.ru
>  > > > > https://lists.mephi.ru/listinfo/hpc
>  > > > _______________________________________________
>  > > > hpc mailing list
>  > > > hpc at lists.mephi.ru
>  > > > https://lists.mephi.ru/listinfo/hpc
>  > > > 
>  > _______________________________________________
>  > hpc mailing list
>  > hpc at lists.mephi.ru
>  > https://lists.mephi.ru/listinfo/hpc
>  > 
> -- 
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
> 
> 
> -- 
> Отправлено из мобильного приложения Яндекс.Почты
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list