[mephi-hpc] проблема с работой программы

anikeev anikeev at ut.mephi.ru
Tue Mar 26 16:49:21 MSK 2019


On Sun, 2019-03-24 at 15:54 +0300, Анастасия Шошина wrote:
> Добрый день.

Здравствуйте!

Ваше письмо попало в спам, т.к. этот адрес не был подписан на лист
рассылки. Пожалуйста, подпишитесь на лист:

https://lists.mephi.ru/listinfo/hpc

Обратите внимание на адрес Вашей почты:

iamnastish at gmail.com

Адерс iamnastishoshina at gmail.com является неверным.


Это письмо было отправлено вчера, не сегодня.

> Хотелось бы задать следующие вопросы:
> Работоспособность кластера на задачах MPI проверялась

Да, кончено. У нас более 350 пользователей. Значительная их часть
использует MPI.

> Тесты High Performance Linpack прогонялись

Тест HPL прогонялся только на кластере Unicluster. На кластерах Basov и
Cherenkov полное проведение HPL было признано нецелесообразным,
поскольку корректное проведение HPL потребует выведение кластеров из
строя минимум на неделю и даёт очень мало информации о реальной
производительности с учётом пропускной способности сети.
Производительность сетей тестировалась узкоспециализированными MPI
тестами и на практических MPI задачах.

> Также вопрос по работе программы, она находится
> /home/iamnastishoshina/pool/3/Fe27
> При запуске программы odettaMPI.qsub
> Не осуществляется взаимодействие между процессами и вывод программы
> дублируется

В Вашей задаче имеются ошибки:

1)
MPIEXE="mpirun -n 2 $EXENAME -wdir $DDIR -env I_MPI_FABRICS shm:ofa
$OUTERR"

Переменная окружения "I_MPI_FABRICS=shm:ofa" является переменной
окружения для IntelMPI, в то время как Вы используете mpirun из состава
OpenMPI. Обратите внимание на синтаксическую ошибку: пропущено символ
"=".

Программное обеспечение IntelMPI на кластерах тоже имеется, вот здесь
есть руководство по его использованию:

https://software.intel.com/en-us/get-started-with-parallel-studio-xe-co
mposer-for-linux

Не забывайте расставлять переменные окружения Intel PSXE не только при
компиляции, но и внутри скрипта запсука задачи:

source /opt/intel/parallel_studio_xe_2018/psxevars.sh -arch intel64
-platform linux

2)
На кластере Басов не сети ofa. На Басов используется сеть Ethrenet
10GE, на кластере Черенков - IB FDR.

3)
Ваше приложение слинковано со смесью библиотек из состава Intel MPI
2013  и Intel PSXE 2018:

anikeev at master.basov ~ $ ldd
/mnt/pool/3/iamnastishoshina/odetta_release/odettaMPI
        linux-vdso.so.1 (0x00007fffbd1ff000)
        /opt/intel/composerxe-2013.2.144/compiler/lib/intel64/libimf.so 
(0x00007f3c81b7b000)
        libdl.so.2 => /lib64/libdl.so.2 (0x00007f3c81977000)
        libiomp5.so => /opt/intel/composerxe-
2013.2.144/compiler/lib/intel64/libiomp5.so (0x00007f3c8165f000)
        libmpi.so.12 =>
/opt/intel/compilers_and_libraries_2018.1.163/linux/mpi/intel64/lib/rel
ease_mt/libmpi.so.12 (0x00007f3c809da000)
        libmpifort.so.12 =>
/opt/intel/compilers_and_libraries_2018.1.163/linux/mpi/intel64/lib/lib
mpifort.so.12 (0x00007f3c80631000)
        librt.so.1 => /lib64/librt.so.1 (0x00007f3c80429000)
        libpthread.so.0 => /lib64/libpthread.so.0 (0x00007f3c8020c000)
        libm.so.6 => /lib64/libm.so.6 (0x00007f3c7ff12000)
        libc.so.6 => /lib64/libc.so.6 (0x00007f3c7fb6f000)
        libgcc_s.so.1 => /usr/lib/gcc/x86_64-pc-linux-
gnu/4.8.2/libgcc_s.so.1 (0x00007f3c7f959000)
        libintlc.so.5 => /opt/intel/composerxe-
2013.2.144/compiler/lib/intel64/libintlc.so.5 (0x00007f3c7f703000)
        /lib64/ld-linux-x86-64.so.2 (0x00007f3c8203e000)

Если Вы хотите использовать библиотеки Intel, выберите одну версию
пакета и придерживайтесь её. Лучше использовать более новую версию -
PSXE 2018 

4)
Вы используете очень большой размер stack. При настолько больших
размерах stack нужно проверять ulimit системы:

anikeev at master.basov ~ $ ulimit -s
8192

Снимите ограничение на размер stack командой

ulimit -s unlimited

в теле скрипта запуска перед запуском задачи

> Спасибо за ответ.
> 
> Отправлено из приложения "Почта" для Windows 10
>  
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list