[mephi-hpc] PGI compiler

anikeev anikeev at ut.mephi.ru
Thu Feb 4 12:31:44 MSK 2021


On Wed, 2021-02-03 at 21:17 +0000, Жариков Евгений Сергеевич wrote:
> Добрый вечер!

Здравствуйте!

> HPC SDK успешно установился, также вроде бы успешно собрался Quantum
> Espresso (gpu-версия требует исключительно PGI).
> 
> Однако, при запуске (средствами mpi, входящими в состав HPC SDK)
> возникает ошибка (ниже). Очевидно есть какой-то нюанс или специальные
> ключи запуска в этом случае? Остальное ПО (к примеру, LAMMPS,
> собранный штатными gcc и mpi Tensor запускается и работает
> нормально).
> 
> Спасибо!
> 
> WARNING: There are more than one active ports on host 't1n1', but the
> default subnet GID prefix was detected on more than one of these
> ports.  If these ports are connected to different physical IB
> networks, this configuration will fail in Open MPI.  This version of
> Open MPI requires that every physically separate IB subnet that is
> used between connected MPI processes must have different subnet ID
> values.
> 
> Please see this FAQ entry for more details:
> 
>   
> http://www.open-mpi.org/faq/?category=openfabrics#ofa-default-subnet-gid
> 
> NOTE: You can turn off this warning by setting the MCA parameter
>       btl_openib_warn_default_gid_prefix to 0.

Это предупреждение о том, что обе сетевые карты IB находятся в одной
подсети. Так должно быть, tensor использует сетевую схему InfinBand
Dual Rail, OpenMPI её поддерживает по умолчанию, используя ближайшую
карту для каждого из MPI процессов:

https://www.mail-archive.com/users@lists.open-mpi.org/msg31316.html

Если Вам оно мешает, его можно скрыть при помощи опции --mca
btl_openib_warn_default_gid_prefix 0.

> -------------------------------------------------------------------
> -------
> -------------------------------------------------------------------
> -------
> A process has executed an operation involving a call to the
> "fork()" system call to create a child process.  Open MPI is
> currently
> operating in a condition that could result in memory corruption or
> other system errors; your job may hang, crash, or produce silent
> data corruption.  The use of fork() (or system() or other calls that
> create child processes) is strongly discouraged.
> 
> The process that invoked fork was:
> 
>   Local host:          [[29162,1],4] (PID 11211)
> 
> If you are *absolutely sure* that your application will successfully
> and correctly survive a call to fork(), you may disable this warning
> by setting the mpi_warn_on_fork MCA parameter to 0.

А вот это уже основная проблема. QE внутри потока MPI начал
использовать низкоуровневый параллелизм с использованием fork(). Так
обычно не делают, это может привести к проблемам.

Вот обсуждение проблемы среди разработчиков QE:

https://www.mail-archive.com/users@lists.quantum-espresso.org/msg36641.html

Насколько я понял, не во всех версиях QE все алгоритмы корректно
работают с MPI, нужно проверять версии QE. Отключить предупреждение
можно при помощи --mca mpi_warn_on_fork 0.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артем.

> > 25 янв. 2021 г., в 16:25, Жариков Евгений Сергеевич <
> > ESZharikov at mephi.ru> написал(а):
> > 
> > Большое спасибо за информацию!
> > 
> > > 25 янв. 2021 г., в 16:23, anikeev <anikeev at ut.mephi.ru>
> > > написал(а):
> > > 
> > > On Mon, 2021-01-25 at 12:31 +0000, Жариков Евгений Сергеевич
> > > wrote:
> > > > Добрый день!
> > >  
> > > Здравствуйте!
> > > 
> > > > Есть ли какая-нибудь возможность установить в будущем на
> > > > кластер
> > > > Tensor компилятор PGI?
> > >  
> > > > https://developer.nvidia.com/openacc-toolkit
> > >  
> > > Полноценная версия PGI платная. Если какое-то подразделение
> > > готово
> > > спонсировать закупку ПО, это можно сделать. Есть бесплатная
> > > версия
> > > Community Edition с ограниченной поддержкой.
> > > 
> > > На Tensor установлена версия Nvidia SDK, поддерживаемая
> > > дистрибутивом
> > > ОС. PGI NVFortran Community Edition вошел в состав Nvidia HPC SDK
> > > сравнительно недавно, и его пока нет в дистрибутиве. Обновление
> > > дистрибутива планируется при релизе Debian 11, т.е. примерно в
> > > июне-
> > > июле 2021.
> > > 
> > > Для установки HPC SDK не нужны права администратора, Вы можете
> > > это
> > > сделать сами. Насколько я помню, ПО фирмы PGI обычно довольно
> > > проблемное. Если Вам потребуется контейнерное окружение, отличное
> > > от
> > > Debian, Вы можете использовать proot:
> > > 
> > > https://proot-me.github.io/
> > > 
> > > Попробуйте пока поставить для своего пользователя сами. Если
> > > возникнут
> > > проблемы - обращайтесь.
> > > 
> > > > Спасибо!
> > > > 
> > > > 
> > > > С уважением,
> > > > Евгений Жариков
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > >  -- 
> > > С уважением,
> > > инженер отдела Unix-технологий МИФИ,
> > > Аникеев Артём.
> > > Тел.: 8
> > > (495) 788-56-99, доб. 8998
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> >  
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list