[mephi-hpc] проблема с работой программы
anikeev
anikeev at ut.mephi.ru
Tue Mar 26 16:49:21 MSK 2019
On Sun, 2019-03-24 at 15:54 +0300, Анастасия Шошина wrote:
> Добрый день.
Здравствуйте!
Ваше письмо попало в спам, т.к. этот адрес не был подписан на лист
рассылки. Пожалуйста, подпишитесь на лист:
https://lists.mephi.ru/listinfo/hpc
Обратите внимание на адрес Вашей почты:
iamnastish at gmail.com
Адерс iamnastishoshina at gmail.com является неверным.
Это письмо было отправлено вчера, не сегодня.
> Хотелось бы задать следующие вопросы:
> Работоспособность кластера на задачах MPI проверялась
Да, кончено. У нас более 350 пользователей. Значительная их часть
использует MPI.
> Тесты High Performance Linpack прогонялись
Тест HPL прогонялся только на кластере Unicluster. На кластерах Basov и
Cherenkov полное проведение HPL было признано нецелесообразным,
поскольку корректное проведение HPL потребует выведение кластеров из
строя минимум на неделю и даёт очень мало информации о реальной
производительности с учётом пропускной способности сети.
Производительность сетей тестировалась узкоспециализированными MPI
тестами и на практических MPI задачах.
> Также вопрос по работе программы, она находится
> /home/iamnastishoshina/pool/3/Fe27
> При запуске программы odettaMPI.qsub
> Не осуществляется взаимодействие между процессами и вывод программы
> дублируется
В Вашей задаче имеются ошибки:
1)
MPIEXE="mpirun -n 2 $EXENAME -wdir $DDIR -env I_MPI_FABRICS shm:ofa
$OUTERR"
Переменная окружения "I_MPI_FABRICS=shm:ofa" является переменной
окружения для IntelMPI, в то время как Вы используете mpirun из состава
OpenMPI. Обратите внимание на синтаксическую ошибку: пропущено символ
"=".
Программное обеспечение IntelMPI на кластерах тоже имеется, вот здесь
есть руководство по его использованию:
https://software.intel.com/en-us/get-started-with-parallel-studio-xe-co
mposer-for-linux
Не забывайте расставлять переменные окружения Intel PSXE не только при
компиляции, но и внутри скрипта запсука задачи:
source /opt/intel/parallel_studio_xe_2018/psxevars.sh -arch intel64
-platform linux
2)
На кластере Басов не сети ofa. На Басов используется сеть Ethrenet
10GE, на кластере Черенков - IB FDR.
3)
Ваше приложение слинковано со смесью библиотек из состава Intel MPI
2013 и Intel PSXE 2018:
anikeev at master.basov ~ $ ldd
/mnt/pool/3/iamnastishoshina/odetta_release/odettaMPI
linux-vdso.so.1 (0x00007fffbd1ff000)
/opt/intel/composerxe-2013.2.144/compiler/lib/intel64/libimf.so
(0x00007f3c81b7b000)
libdl.so.2 => /lib64/libdl.so.2 (0x00007f3c81977000)
libiomp5.so => /opt/intel/composerxe-
2013.2.144/compiler/lib/intel64/libiomp5.so (0x00007f3c8165f000)
libmpi.so.12 =>
/opt/intel/compilers_and_libraries_2018.1.163/linux/mpi/intel64/lib/rel
ease_mt/libmpi.so.12 (0x00007f3c809da000)
libmpifort.so.12 =>
/opt/intel/compilers_and_libraries_2018.1.163/linux/mpi/intel64/lib/lib
mpifort.so.12 (0x00007f3c80631000)
librt.so.1 => /lib64/librt.so.1 (0x00007f3c80429000)
libpthread.so.0 => /lib64/libpthread.so.0 (0x00007f3c8020c000)
libm.so.6 => /lib64/libm.so.6 (0x00007f3c7ff12000)
libc.so.6 => /lib64/libc.so.6 (0x00007f3c7fb6f000)
libgcc_s.so.1 => /usr/lib/gcc/x86_64-pc-linux-
gnu/4.8.2/libgcc_s.so.1 (0x00007f3c7f959000)
libintlc.so.5 => /opt/intel/composerxe-
2013.2.144/compiler/lib/intel64/libintlc.so.5 (0x00007f3c7f703000)
/lib64/ld-linux-x86-64.so.2 (0x00007f3c8203e000)
Если Вы хотите использовать библиотеки Intel, выберите одну версию
пакета и придерживайтесь её. Лучше использовать более новую версию -
PSXE 2018
4)
Вы используете очень большой размер stack. При настолько больших
размерах stack нужно проверять ulimit системы:
anikeev at master.basov ~ $ ulimit -s
8192
Снимите ограничение на размер stack командой
ulimit -s unlimited
в теле скрипта запуска перед запуском задачи
> Спасибо за ответ.
>
> Отправлено из приложения "Почта" для Windows 10
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
More information about the hpc
mailing list