[mephi-hpc] Ошибка

Andrew A. Savchenko aasavchenko at ut.mephi.ru
Thu Jun 15 16:04:59 MSK 2017


Добрый день,

On Thu, 15 Jun 2017 09:34:54 +0000 Гельфер Евгений Григорьевич
wrote:
> Добрый день!
> 
> При запуске программы на basov выдается ошибка (прикреплена в
> приложении). При этом, расчет с другими параметрами был успешно
> проведен. ?

> Program received signal SIGBUS: Access to an undefined portion of a memory object.

Данная ошибка обычно возникает при некорректном обращении к памяти
внутри приложения.

> Backtrace for this error:
> #0  0x7FFE9FFE4707
> #1  0x7FFE9FFE4D0E
> #2  0x7FFE9F2F174F

Пожалуйста, перекомпилируйте ваше приложение, включая все его
объектные файлы, с отладочной информацией (-ggdb3), чтоб было
видно, где именно возникает ошибка.

> #3  0x4714F2 in __particles_MOD_push_particles
> #4  0x4580E4 in MAIN__ at epoch1d.F90:?
> [n111][[37466,1],39][btl_tcp_frag.c:215:mca_btl_tcp_frag_recv] mca_btl_tcp_frag_recv: readv failed: Connection reset by peer (104)

Эта ошибка, вероятно, возникла из-за того, что один из MPI потоков
слишком рано или слишком поздно вернул данные. Обычно это вызвано
ошибкой в коде приложения.

Что именно и с какими именно аргументами вы запускали? Я нашёл у
вас скрипт:
  echo /mnt/pool/2/egelfer/Data/New/a300_t100_nx3e5 | mpirun -np 64 ./EPOCH2/epoch1d_rr/bin/epoch1d

Это соответствует запуску, приведшему к ошибке? Есть ли
конфигурационные файлы, переменные окружения и иные дополнительные
методы, использованные для настройки приложения?

Повторяется ли у вас эта ошибка, если запустить обработку ещё раз?
Если да, то пересоберите приложение как указано выше и приложите
полный бэктрейс стека.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 833 bytes
Desc: not available
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170615/f98211bd/attachment.sig>


More information about the hpc mailing list