[mephi-hpc] hpc Digest, Vol 37, Issue 1

Tue Feb 7 16:40:37 MSK 2017

Спасибо! Все-таки я недопонимаю, помогите пожалуйста разобраться.
Перенесла рабочую директорию в pool/3 и запускала оттуда свой скрипт, который исправила по примеру вашего. Однако проблема осталась.
Пробовала указывать в скрипте и в инпуте пути по-разному,  /home/unk/pool/3/qe/, /home/cherenkov/unk/pool/3/qe/, в т.ч. как раньше просто <100.in >100.out,  результат один. Задача запускается, как и раньше, выдача идет в ту папку, где скрипт, все нормально. Забыла сказать в первом письме, что задача запускалась и работала несколько минут, а потом обрывалась с fork error.
Протестировала еще пару задач test1, test2:  test2 с тем же алгоритмом, что и сабж, но требует меньше ресурсов, test1 с другим алгоритмом, обе отрабатывают до конца. По всему выходит, что дело в алгоритме и ресурсах памяти?
А у вас та задача досчиталась до конца? Нет доступа к вашему 110.out.

________________________________________
От: hpc [hpc-bounces at lists.mephi.ru] от имени hpc-request at lists.mephi.ru [hpc-request at lists.mephi.ru]
Отправлено: 6 февраля 2017 г. 18:54
Кому: hpc at lists.mephi.ru
Тема: hpc Digest, Vol 37, Issue 1

Send hpc mailing list submissions to
        hpc at lists.mephi.ru

To subscribe or unsubscribe via the World Wide Web, visit
        https://lists.mephi.ru/listinfo/hpc
or, via email, send a message with subject or body 'help' to
        hpc-request at lists.mephi.ru

You can reach the person managing the list at
        hpc-owner at lists.mephi.ru

When replying, please edit your Subject line so it is more specific
than "Re: Contents of hpc digest..."

Today's Topics:

   1. Mpi fork problem
      (Курельчук Ульяна Николаевна)
   2. Re: Mpi fork problem (anikeev)
   3. Re: Mpi fork problem (anikeev)
   4. Re: Mpi fork problem (anikeev)

----------------------------------------------------------------------

Message: 1
Date: Mon, 6 Feb 2017 14:34:03 +0000
From: Курельчук Ульяна Николаевна
        <UNKurelchuk at mephi.ru>
To: "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
Subject: [mephi-hpc] Mpi fork problem
Message-ID: <e91f44c2fe3a465889cea74308e770d1 at mail-stor.mephi.ru>
Content-Type: text/plain; charset="koi8-r"

Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой проблемой:

unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:
--------------------------------------------------------------------------
An MPI process has executed an operation involving a call to the
"fork()" system call to create a child process.  Open MPI is currently
operating in a condition that could result in memory corruption or
other system errors; your MPI job may hang, crash, or produce silent
data corruption.  The use of fork() (or system() or other calls that
create child processes) is strongly discouraged.

The process that invoked fork was:

  Local host:          master (PID 32167)
  MPI_COMM_WORLD rank: 0

If you are *absolutely sure* that your application will successfully
and correctly survive a call to fork(), you may disable this warning
by setting the mpi_warn_on_fork MCA parameter to 0.
--------------------------------------------------------------------------
#0  0x7FEFD1118407
#1  0x7FEFD1118A1E
#2  0x7FEFD04160DF
#3  0x7FEFD197F372
#4  0x7FEFD18C547F
#5  0x7FEF7B23B7B6
#6  0x7FEF7B243501
#7  0x7FEFD18D290A
#8  0x7FEFD1C1C722
#9  0x841ABE in fftw_import_wisdom
#10  0x636837
#11  0x54C0C5
#12  0x535B75
#13  0x536BA0
#14  0x40C2A2
#15  0x411DF4
#16  0x4CA217
#17  0x408F73
#18  0x408C0C
#19  0x7FEFD0402B44
#20  0x408C35
#21  0xFFFFFFFFFFFFFFFF
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 32167 on node master exited on signal 24 (CPU time limit exceeded).

Вот мой скрипт
#!/bin/sh
#
#PBS -l nodes=16, walltime=24:00:00
mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out

( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1. кстати в этом случае проблема тоже возникает)

В выдаче программы есть оценка ресурсов:

Estimated max dynamical RAM per process >      10.58Mb

Estimated total allocated dynamical RAM >     169.33Mb вроде не так много(

Пробовала запускать с mpirun --mca mpi_warn_on_fork 0, но

unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:

Program received signal SIGXCPU: CPU time limit exceeded.

Backtrace for this error:
#0  0x7F055FC39407
#1  0x7F055FC39A1E
#2  0x7F055EF370DF
#3  0x7F050AC21000
#4  0x7F05604A0349
#5  0x7F05603E5E37
#6  0x7F0509D6303D
#7  0x7F0509D633F4
#8  0x7F0509D5AC02
#9  0x7F0509F73864
#10  0x7F05603F3CCC
#11  0x7F056073D7A3
#12  0x7F0563B220C7
#13  0x7F0563B24BEF
#14  0x7F0563B2E900
#15  0x84F1F0 in fftw_import_wisdom
#16  0x636928
#17  0x54C0C5
#18  0x535B75
#19  0x536BA0
#20  0x40C2A2
#21  0x411DF4
#22  0x4CA217
#23  0x408F73
#24  0x408C0C
#25  0x7F055EF23B44
#26  0x408C35
#27  0xFFFFFFFFFFFFFFFF
--------------------------------------------------------------------------
mpirun noticed that process rank 4 with PID 8519 on node master exited on signal 24 (CPU time limit exceeded).

Подскажите пожалуйста, что может вызывать проблему?  сообщений о багах версии 6.0 и похожих проблемах не нашла.

------------------------------

Message: 2
Date: Mon, 06 Feb 2017 18:48:41 +0300
From: anikeev <anikeev at ut.mephi.ru>
To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
        "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
Subject: Re: [mephi-hpc] Mpi fork problem
Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
Content-Type: text/plain; charset="UTF-8"

On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:

Добрый вечер!

> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
>
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Вот мой скрипт
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
>
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает)
> Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> багах версии 6.0 и похожих проблемах не нашла.

Здесь есть пара проблем:

1) В скрипте нужно указывать не только количество нод (серверов), но и
количество потоков (ядер) на каждом сервере. Вот пример работающего
скрипта:

anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
#!/bin/sh
#
#PBS -l nodes=2:ppn=8,walltime=24:00:00

mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
/home/anikeev/q_e/110.out

2) В файле 110.in указаны неверные пути:

anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
pool
  pseudo_dir   = "/home/cherenkov/unk/pool/1/qe/pseudo",
  outdir       = "/home/cherenkov/unk/pool/1/qe/tempdir",

Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
"pool/4". Unicluster может работать со всеми хранилищами.

Я собрал пример работающей задачи с работающими путями здесь:

anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
total 36K
drwxr-xr-x  4 anikeev users   4.0K Feb  6 18:33 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb  6 18:33 ..
-rw-r--r--  1 anikeev users   1.1K Feb  6 18:33 110.in
-rw-------  1 anikeev users   9.4K Feb  6 18:46 110.out
-rwxrwxr-x  1 anikeev users    131 Feb  6 18:25 110.sh
drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
drwx------  2 anikeev users   4.0K Feb  6 18:33 tempdir

Задача успешно запустилась:

anikeev at master.cherenkov ~/q_e $ qstat
Job ID                    Name             User            Time Use S
Queue
------------------------- ---------------- --------------- -------- -
-----
19159.master               110.sh           anikeev         09:36:48 R
medium

и что-то считает:

anikeev at master.cherenkov ~/q_e $ tail -f 110.out
     negative rho (up, down):  8.839E-03 0.000E+00

     total cpu time spent up to now is      602.6 secs

     total energy              =    -425.40656471 Ry
     Harris-Foulkes estimate   =    -425.40659146 Ry
     estimated scf accuracy    <       0.00006385 Ry

     iteration #  9     ecut=    28.00 Ry     beta=0.30
     Davidson diagonalization with overlap

Результаты я оценить не могу, это не моя область физики.

> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998

------------------------------

Message: 3
Date: Mon, 06 Feb 2017 18:48:41 +0300
From: anikeev <anikeev at ut.mephi.ru>
To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
        "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
Subject: Re: [mephi-hpc] Mpi fork problem
Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
Content-Type: text/plain; charset="UTF-8"

On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:

Добрый вечер!

> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
>
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Вот мой скрипт
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
>
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает)
> Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> багах версии 6.0 и похожих проблемах не нашла.

Здесь есть пара проблем:

1) В скрипте нужно указывать не только количество нод (серверов), но и
количество потоков (ядер) на каждом сервере. Вот пример работающего
скрипта:

anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
#!/bin/sh
#
#PBS -l nodes=2:ppn=8,walltime=24:00:00

mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
/home/anikeev/q_e/110.out

2) В файле 110.in указаны неверные пути:

anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
pool
  pseudo_dir   = "/home/cherenkov/unk/pool/1/qe/pseudo",
  outdir       = "/home/cherenkov/unk/pool/1/qe/tempdir",

Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
"pool/4". Unicluster может работать со всеми хранилищами.

Я собрал пример работающей задачи с работающими путями здесь:

anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
total 36K
drwxr-xr-x  4 anikeev users   4.0K Feb  6 18:33 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb  6 18:33 ..
-rw-r--r--  1 anikeev users   1.1K Feb  6 18:33 110.in
-rw-------  1 anikeev users   9.4K Feb  6 18:46 110.out
-rwxrwxr-x  1 anikeev users    131 Feb  6 18:25 110.sh
drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
drwx------  2 anikeev users   4.0K Feb  6 18:33 tempdir

Задача успешно запустилась:

anikeev at master.cherenkov ~/q_e $ qstat
Job ID                    Name             User            Time Use S
Queue
------------------------- ---------------- --------------- -------- -
-----
19159.master               110.sh           anikeev         09:36:48 R
medium

и что-то считает:

anikeev at master.cherenkov ~/q_e $ tail -f 110.out
     negative rho (up, down):  8.839E-03 0.000E+00

     total cpu time spent up to now is      602.6 secs

     total energy              =    -425.40656471 Ry
     Harris-Foulkes estimate   =    -425.40659146 Ry
     estimated scf accuracy    <       0.00006385 Ry

     iteration #  9     ecut=    28.00 Ry     beta=0.30
     Davidson diagonalization with overlap

Результаты я оценить не могу, это не моя область физики.

> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998

------------------------------

Message: 4
Date: Mon, 06 Feb 2017 18:54:27 +0300
From: anikeev <anikeev at ut.mephi.ru>
To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>
Subject: Re: [mephi-hpc] Mpi fork problem
Message-ID: <1486396467.14711.3.camel at ut.mephi.ru>
Content-Type: text/plain; charset="utf-8"

On Mon, 2017-02-06 at 18:48 +0300, anikeev wrote:
> On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
>
> Добрый вечер!
>
> > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > проблемой:

P.S. В приложении письма обновлённая схема подключения хранилищ к
кластерам.

--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
-------------- next part --------------
A non-text attachment was scrubbed...
Name: cluster_storage.png
Type: image/png
Size: 15050 bytes
Desc: not available
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdcf6/attachment.png>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: cluster_storage.svg
Type: image/svg+xml
Size: 272007 bytes
Desc: not available
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdcf6/attachment.svg>

------------------------------

Subject: Digest Footer

_______________________________________________
hpc mailing list
hpc at lists.mephi.ru
https://lists.mephi.ru/listinfo/hpc

------------------------------

End of hpc Digest, Vol 37, Issue 1
**********************************