[mephi-hpc] Проблема с работой программы
anikeev
anikeev at ut.mephi.ru
Wed Feb 6 16:02:34 MSK 2019
On Wed, 2019-02-06 at 15:14 +0300, Высоцкий Всеволод wrote:
> Добрый день.
Здравствуйте!
hpc at lists.mephi.ru - это лист рассылки. Сообщения, отправленные на этот
адрес получают все пользователи вычислительного центра. Непубличные
сообщения можно отправлять на адрес hpc-private at ut.mephi.ru . Способ
обращения выбирают пользователи, администраторы поддерживают оба
способа связи.
Для специфичных вопросов, не касающихся других пользователей, лучше
использовать hpc-private at ut.mephi.ru , но обращения на hpc at lists.mephi.
ru не запрещены.
> Вероятно, вы ошиблись адресатом сообщения, потому что у меня проблем
> с кластером не было.
>
> 11:53, 6 февраля 2019 г., anikeev <anikeev at ut.mephi.ru>:
> On Tue, 2019-02-05 at 17:18 +0300, Alexandra Freidzon wrote:
> Да, программа собрана под 32-битный mpi и по-другому никак. Этот
> неправильно собранный mvapich дал мне автор программы, в таком виде
> оно работало… какое-то время. Странно, что идет обращение к 64-
> битной
> библиотеке, хотя вроде бы все пути прописаны в LD_LIBRARY_PATH. И
> главное - такое сообщение вылезает и при нормальном завершении
> задачи, автор говорил, что на него не надо обращать внимания.
>
> Спасибо, что разбираетесь с моей проблемой.
>
> Добрый день!
>
> Cherenkov:
>
> 32-bit библиотека не может использовать 64-bit драйвер никак. Драйвер
> есть только 64-bit. Задача могла работать если mvapich2 был
> сконфигурирован для локальной работы без использования сети (чтобы он
> даже не пытался загрузить этот драйвер). Или если она запускалась в
> один поток без mpirun - такая возможность предусмотрена стандартом
> MPI.
> Возможно, Вы использовали OpenMPI из 32-bit chroot-окружения?
>
> В любом случае, это нужно исправить. Возможные пути:
>
> 1) Смириться с однопоточностью и не использовать mpirun
> 2) Настраивать mvapich2 для работы без ошибок без использования сети.
> Проще всего отключить все сетевые протоколы на этапе configure.
> Конечно, в этом случае логичнее использовать OpenMP, но я не уверен,
> что его поддерживает firefly.
> 3) Использовать передачу MPI сообщений через IPoIB, вместо ibverbs.
> Но
> этот способ сведёт на нет преимущества IB коммутатора cherenkov для
> Ваших задач.
>
> Basov:
>
> Проверьте, пожалуйста, результат работы программы в директории:
>
> /mnt/pool/1/freidzon/work/test_by_anikeev/anthracene_pair3A_mcq_/
>
> Я запустил Вашу программу с отладчиком gdb и похоже, что она
> отработала
> успешно. Это довольно неприятный вид ошибок, когда использования
> отладчика исправляет проблему, что не позволяет эту проблему
> обнаружить... Но для таких случаев тоже есть методы. Для продолжения
> работы нужно убедиться, что результат работы с gdb корректен.
>
> вт, 5 фев 2019 г., 16:35 anikeev <anikeev at ut.mephi.ru>:
> > On Tue, 2019-02-05 at 11:02 +0300, Alexandra Freidzon wrote:
> >
> > На cherenkov у Вас сломана логика работы с mvapich2 - он
> > запускается в
> > 1 поток вне зависимости от аргументов. У Вас очень сложная система
> > запуска задач - больше 4-х последовательных shell
> интерпретаторов.
> > Если Вам нужна помощь по mvapich2, упростите, пожалуйста, систему
> > запуска до одного скрипта оставив максимальное возможно количество
> > опций запуска статичными (явно прописанными руками, а не
> > генерируемыми
> > при запуске).
> >
> > По моему опыту работы с большими задачами скрипты запуска лучше
> > всегда
> > генерировать и сохранять в виде самодостаточных статичных
> временных
> > файлов. Это значительно упрощает отладку. Это просто совет, это не
> > требование.
> >
> > Далее, mvapich2 неправильно собран и не может использовать сеть:
> >
> > freidzon at master.cherenkov
> /mnt/pool/3/freidzon/work/test_by_anikeev
> > $
> > cat run_ff_cherenkov.e142221
> > libibverbs: Warning: couldn't load driver
> > '/usr/lib/libibverbs/libmlx4': /usr/lib/libibverbs/libmlx4-
> > rdmav2.so:
> > wrong ELF class: ELFCLASS64
> >
> > Ваша версия mvapich2 собрана под архитектуру 32-битную i386 и не
> > может
> > использовать системные 64-битные amd64 библиотеки и драйверы
> > кластера.
> > 32-битные multilib версии есть только у незначительного числа
> > библиотек, они явно указаны в dpkg. libibverbs не имеет multilib
> > версии.
> >
> > На basov проблему увидел, провожу отладку.
> >
> > > /mnt/pool/[1,3]/freidzon/work
> > > Только там скрипты называются просто run_ff_ и qff_short, без
> > > приписок _basov и _cherenkov
> > >
> > > вт, 5 фев 2019 г., 10:58 anikeev <anikeev at ut.mephi.ru>:
> > > > On Mon, 2019-02-04 at 22:57 +0300, Alexandra Freidzon wrote:
> > > >
> > > > Добрый день!
> > > >
> > > > > Собрала архив с файлами (входные + скрипты), получилось 4
> Мб,
> > > > система
> > > > > не хочет отправлять. Я в hpc-privat отправлю?
> > > >
> > > > Просто напишите в какой директории на кластере их можно взять.
> > > >
> > > > > пн, 4 февр. 2019 г. в 10:55, anikeev <anikeev at ut.mephi.ru>:
> > > > > >
> > > > > > On Mon, 2019-02-04 at 10:53 +0300, anikeev wrote:
> > > > > > > On Sat, 2019-02-02 at 08:21 +0300, Alexandra Freidzon
> > wrote:
> > > > > > > > Добрый день,
> > > > > > >
> > > > > > > Здравствуйте!
> > > > > > >
> > > > > > > > Я работаю с программой FireFly. С какого-то момента
> > (честно
> > > > > > > > говоря,
> > > > > > > > не
> > > > > > > > знаю с какого, точно после июля) программа стала
> > вылетать
> > > > через
> > > > > > > > примерно 30-40 минут работы, а то и раньше (даже одна
> > > > задача на
> > > > > > > > одной
> > > > > > > > и той же ноде слетает через разное время). Проблема
> > есть и
> > > > на
> > > > > > > > Басове,
> > > > > > > > и на Черенкове, т.е., не зависит ни от конкретной
> > сборки
> > > > > > > > программы
> > > > > > > > (басовская под mpich1, черенковская под mvapich2), ни
> > от
> > > > версии
> > > > > > > > Линукса, ни от реализации mpi. Никаких особых
> сообщений
> > в
> > > > > > > > файлах
> > > > > > > > firefly.o* и firefly.e*, отличных от сообщений при
> > > > корректном
> > > > > > > > завершении задачи, нет. В самом выходном файле
> > программы
> > > > тоже
> > > > > > > > ничего,
> > > > > > > > просто обрыв -- и все.
> > > > > > >
> > > > > > > Вне нужна возможность повторить проблему самостоятельно.
> > Как
> > > > > > > именно
> > > > > > > Вы
> > > > > > > запускает задачу? У Вас есть готовый скрипт?
> > > > > >
> > > > > > *Мне
> > > > > >
> > > > > > Прошу прощения за опечатку.
> > > > > >
> > > > > > > > Что можно с этим сделать? Другие пользователи группы
> > > > kintech
> > > > > > > > тоже
> > > > > > > > хотели бы работать с FireFly, но теперь это
> практически
> > > > > > > > невозможно...
> > > > > > > >
> > > > > > > > С уважением,
> > > > > > > > А. Фрейдзон
> > > > > > > > _______________________________________________
> > > > > > > > hpc mailing list
> > > > > > > > hpc at lists.mephi.ru
> > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > >
> > > > > > --
> > > > > > С уважением,
> > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > Аникеев Артём.
> > > > > > Тел.: 8
> > > > > > (495) 788-56-99, доб. 8998
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > >
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> >
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
>
> --
> Отправлено из мобильного приложения Яндекс.Почты
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
More information about the hpc
mailing list