[mephi-hpc] hpc Digest, Vol 37, Issue 1

Tue Feb 7 17:17:43 MSK 2017

On Tue, 2017-02-07 at 13:40 +0000, Курельчук Ульяна Николаевна wrote:
Добрый день!

> Спасибо! Все-таки я недопонимаю, помогите пожалуйста разобраться.
> Перенесла рабочую директорию в pool/3 и запускала оттуда свой скрипт,
> который исправила по примеру вашего. Однако проблема осталась.
> Пробовала указывать в скрипте и в инпуте пути по-
> разному,  /home/unk/pool/3/qe/, /home/cherenkov/unk/pool/3/qe/, в
> т.ч. как раньше просто <100.in >100.out,  результат один. Задача
> запускается, как и раньше, выдача идет в ту папку, где скрипт, все
> нормально. Забыла сказать в первом письме, что задача запускалась и
> работала несколько минут, а потом обрывалась с fork error.
> Протестировала еще пару задач test1, test2:  test2 с тем же
> алгоритмом, что и сабж, но требует меньше ресурсов, test1 с другим
> алгоритмом, обе отрабатывают до конца. По всему выходит, что дело в
> алгоритме и ресурсах памяти?
> А у вас та задача досчиталась до конца? Нет доступа к вашему 110.out.

Я посмотрел историю Ваших действий. У Вас есть ошибка в запуске задачи:

master.cherenkov q_e # cat /home/unk/.bash_history | grep sh
...
sh rx.sh

Скрипты нужно запускать через менеджер ресурсов утилитой qsub:

qsub rx.sh

Я открыл доступ к своим файлам в директории:

anikeev at master.cherenkov ~/q_e $ ls -lah
total 64K
drwxr-xr-x  4 anikeev users   4.0K Feb  6 19:49 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb  7 16:11 ..
-rwxr-xr-x  1 anikeev users   1.1K Feb  6 18:33 110.in
-rwxr-xr-x  1 anikeev users    31K Feb  6 19:49 110.out
-rwxr-xr-x  1 anikeev users    131 Feb  6 18:25 110.sh
-rwxr-xr-x  1 anikeev users   1.3K Feb  6 19:49 110.sh.e19159
-rwxr-xr-x  1 anikeev users      0 Feb  6 18:33 110.sh.o19159
drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
drwxr-xr-x  3 anikeev users   4.0K Feb  6 19:49 tempdir

Задача завершилась с ошибкой, обработанной самой программой:

anikeev at master.cherenkov ~/q_e $ tail -f 110.out 
Au       0.000000000   0.000000000  15.773872063

 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%
     Error in routine checkallsym (1):
     some of the original symmetry operations not satisfied
 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%

     stopping ...

Для решения этой проблемы нужно разбираться в физике.

> ________________________________________
> От: hpc [hpc-bounces at lists.mephi.ru] от
> имени hpc-request at lists.mephi.ru [hpc-r
> equest at lists.mephi.ru]
> Отправлено: 6 февраля 2017 г. 18:54
> Кому: hpc at lists.mephi.ru
> Тема: hpc Digest, Vol 37, Issue 1
> 
> Send hpc mailing list submissions to
>         hpc at lists.mephi.ru
> 
> To subscribe or unsubscribe via the World Wide Web, visit
>         https://lists.mephi.ru/listinfo/hpc
> or, via email, send a message with subject or body 'help' to
>         hpc-request at lists.mephi.ru
> 
> You can reach the person managing the list at
>         hpc-owner at lists.mephi.ru
> 
> When replying, please edit your Subject line so it is more specific
> than "Re: Contents of hpc digest..."
> 
> 
> Today's Topics:
> 
>    1. Mpi fork problem
>       (Курельчук Ульяна Николаевна)
>    2. Re: Mpi fork problem (anikeev)
>    3. Re: Mpi fork problem (anikeev)
>    4. Re: Mpi fork problem (anikeev)
> 
> 
> -------------------------------------------------------------------
> ---
> 
> Message: 1
> Date: Mon, 6 Feb 2017 14:34:03 +0000
> From: Курельчук Ульяна Николаевна
>         <UNKurelchuk at mephi.ru>
> To: "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: [mephi-hpc] Mpi fork problem
> Message-ID: <e91f44c2fe3a465889cea74308e770d1 at mail-stor.mephi.ru>
> Content-Type: text/plain; charset="koi8-r"
> 
> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
> 
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> -------------------------------------------------------------------
> -------
> An MPI process has executed an operation involving a call to the
> "fork()" system call to create a child process.  Open MPI is
> currently
> operating in a condition that could result in memory corruption or
> other system errors; your MPI job may hang, crash, or produce silent
> data corruption.  The use of fork() (or system() or other calls that
> create child processes) is strongly discouraged.
> 
> The process that invoked fork was:
> 
>   Local host:          master (PID 32167)
>   MPI_COMM_WORLD rank: 0
> 
> If you are *absolutely sure* that your application will successfully
> and correctly survive a call to fork(), you may disable this warning
> by setting the mpi_warn_on_fork MCA parameter to 0.
> -------------------------------------------------------------------
> -------
> #0  0x7FEFD1118407
> #1  0x7FEFD1118A1E
> #2  0x7FEFD04160DF
> #3  0x7FEFD197F372
> #4  0x7FEFD18C547F
> #5  0x7FEF7B23B7B6
> #6  0x7FEF7B243501
> #7  0x7FEFD18D290A
> #8  0x7FEFD1C1C722
> #9  0x841ABE in fftw_import_wisdom
> #10  0x636837
> #11  0x54C0C5
> #12  0x535B75
> #13  0x536BA0
> #14  0x40C2A2
> #15  0x411DF4
> #16  0x4CA217
> #17  0x408F73
> #18  0x408C0C
> #19  0x7FEFD0402B44
> #20  0x408C35
> #21  0xFFFFFFFFFFFFFFFF
> -------------------------------------------------------------------
> -------
> mpirun noticed that process rank 0 with PID 32167 on node master
> exited on signal 24 (CPU time limit exceeded).
> 
> Вот мой скрипт
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
> 
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает)
> 
> В выдаче программы есть оценка ресурсов:
> 
> Estimated max dynamical RAM per process >      10.58Mb
> 
> Estimated total allocated dynamical RAM >     169.33Mb вроде не так
> много(
> 
> Пробовала запускать с mpirun --mca mpi_warn_on_fork 0, но
> 
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Backtrace for this error:
> #0  0x7F055FC39407
> #1  0x7F055FC39A1E
> #2  0x7F055EF370DF
> #3  0x7F050AC21000
> #4  0x7F05604A0349
> #5  0x7F05603E5E37
> #6  0x7F0509D6303D
> #7  0x7F0509D633F4
> #8  0x7F0509D5AC02
> #9  0x7F0509F73864
> #10  0x7F05603F3CCC
> #11  0x7F056073D7A3
> #12  0x7F0563B220C7
> #13  0x7F0563B24BEF
> #14  0x7F0563B2E900
> #15  0x84F1F0 in fftw_import_wisdom
> #16  0x636928
> #17  0x54C0C5
> #18  0x535B75
> #19  0x536BA0
> #20  0x40C2A2
> #21  0x411DF4
> #22  0x4CA217
> #23  0x408F73
> #24  0x408C0C
> #25  0x7F055EF23B44
> #26  0x408C35
> #27  0xFFFFFFFFFFFFFFFF
> -------------------------------------------------------------------
> -------
> mpirun noticed that process rank 4 with PID 8519 on node master
> exited on signal 24 (CPU time limit exceeded).
> 
> Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> багах версии 6.0 и похожих проблемах не нашла.
> 
> ------------------------------
> 
> Message: 2
> Date: Mon, 06 Feb 2017 18:48:41 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
>         "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="UTF-8"
> 
> On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
> 
> Добрый вечер!
> 
> > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > проблемой:
> > 
> > unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> > 
> > Program received signal SIGXCPU: CPU time limit exceeded.
> > 
> > Вот мой скрипт
> > #!/bin/sh
> > #
> > #PBS -l nodes=16, walltime=24:00:00
> > mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
> > 
> > ( -np не ошибка, с эспрессо приходится указывать, иначе считает на
> > 1.
> > кстати в этом случае проблема тоже возникает)
> > Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> > багах версии 6.0 и похожих проблемах не нашла.
> 
> Здесь есть пара проблем:
> 
> 1) В скрипте нужно указывать не только количество нод (серверов), но
> и
> количество потоков (ядер) на каждом сервере. Вот пример работающего
> скрипта:
> 
> anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
> #!/bin/sh
> #
> #PBS -l nodes=2:ppn=8,walltime=24:00:00
> 
> 
> mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
> /home/anikeev/q_e/110.out
> 
> 2) В файле 110.in указаны неверные пути:
> 
> anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
> pool
>   pseudo_dir   = "/home/cherenkov/unk/pool/1/qe/pseudo",
>   outdir       = "/home/cherenkov/unk/pool/1/qe/tempdir",
> 
> Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
> unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
> "pool/4". Unicluster может работать со всеми хранилищами.
> 
> Я собрал пример работающей задачи с работающими путями здесь:
> 
> anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
> total 36K
> drwxr-xr-x  4 anikeev users   4.0K Feb  6 18:33 .
> drwxr-xr-x 18 anikeev anikeev 4.0K Feb  6 18:33 ..
> -rw-r--r--  1 anikeev users   1.1K Feb  6 18:33 110.in
> -rw-------  1 anikeev users   9.4K Feb  6 18:46 110.out
> -rwxrwxr-x  1 anikeev users    131 Feb  6 18:25 110.sh
> drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
> drwx------  2 anikeev users   4.0K Feb  6 18:33 tempdir
> 
> Задача успешно запустилась:
> 
> anikeev at master.cherenkov ~/q_e $ qstat
> Job ID                    Name             User            Time Use S
> Queue
> ------------------------- ---------------- --------------- -------- -
> -----
> 19159.master               110.sh           anikeev         09:36:48
> R
> medium
> 
> и что-то считает:
> 
> anikeev at master.cherenkov ~/q_e $ tail -f 110.out
>      negative rho (up, down):  8.839E-03 0.000E+00
> 
>      total cpu time spent up to now is      602.6 secs
> 
>      total energy              =    -425.40656471 Ry
>      Harris-Foulkes estimate   =    -425.40659146 Ry
>      estimated scf accuracy    <       0.00006385 Ry
> 
>      iteration #  9     ecut=    28.00 Ry     beta=0.30
>      Davidson diagonalization with overlap
> 
> Результаты я оценить не могу, это не моя область физики.
> 
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
> 
> 
> ------------------------------
> 
> Message: 3
> Date: Mon, 06 Feb 2017 18:48:41 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
>         "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="UTF-8"
> 
> On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
> 
> Добрый вечер!
> 
> > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > проблемой:
> > 
> > unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> > 
> > Program received signal SIGXCPU: CPU time limit exceeded.
> > 
> > Вот мой скрипт
> > #!/bin/sh
> > #
> > #PBS -l nodes=16, walltime=24:00:00
> > mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
> > 
> > ( -np не ошибка, с эспрессо приходится указывать, иначе считает на
> > 1.
> > кстати в этом случае проблема тоже возникает)
> > Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> > багах версии 6.0 и похожих проблемах не нашла.
> 
> Здесь есть пара проблем:
> 
> 1) В скрипте нужно указывать не только количество нод (серверов), но
> и
> количество потоков (ядер) на каждом сервере. Вот пример работающего
> скрипта:
> 
> anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
> #!/bin/sh
> #
> #PBS -l nodes=2:ppn=8,walltime=24:00:00
> 
> 
> mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
> /home/anikeev/q_e/110.out
> 
> 2) В файле 110.in указаны неверные пути:
> 
> anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
> pool
>   pseudo_dir   = "/home/cherenkov/unk/pool/1/qe/pseudo",
>   outdir       = "/home/cherenkov/unk/pool/1/qe/tempdir",
> 
> Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
> unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
> "pool/4". Unicluster может работать со всеми хранилищами.
> 
> Я собрал пример работающей задачи с работающими путями здесь:
> 
> anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
> total 36K
> drwxr-xr-x  4 anikeev users   4.0K Feb  6 18:33 .
> drwxr-xr-x 18 anikeev anikeev 4.0K Feb  6 18:33 ..
> -rw-r--r--  1 anikeev users   1.1K Feb  6 18:33 110.in
> -rw-------  1 anikeev users   9.4K Feb  6 18:46 110.out
> -rwxrwxr-x  1 anikeev users    131 Feb  6 18:25 110.sh
> drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
> drwx------  2 anikeev users   4.0K Feb  6 18:33 tempdir
> 
> Задача успешно запустилась:
> 
> anikeev at master.cherenkov ~/q_e $ qstat
> Job ID                    Name             User            Time Use S
> Queue
> ------------------------- ---------------- --------------- -------- -
> -----
> 19159.master               110.sh           anikeev         09:36:48
> R
> medium
> 
> и что-то считает:
> 
> anikeev at master.cherenkov ~/q_e $ tail -f 110.out
>      negative rho (up, down):  8.839E-03 0.000E+00
> 
>      total cpu time spent up to now is      602.6 secs
> 
>      total energy              =    -425.40656471 Ry
>      Harris-Foulkes estimate   =    -425.40659146 Ry
>      estimated scf accuracy    <       0.00006385 Ry
> 
>      iteration #  9     ecut=    28.00 Ry     beta=0.30
>      Davidson diagonalization with overlap
> 
> Результаты я оценить не могу, это не моя область физики.
> 
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
> 
> 
> ------------------------------
> 
> Message: 4
> Date: Mon, 06 Feb 2017 18:54:27 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396467.14711.3.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="utf-8"
> 
> On Mon, 2017-02-06 at 18:48 +0300, anikeev wrote:
> > On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна
> > wrote:
> > 
> > Добрый вечер!
> > 
> > > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > > проблемой:
> 
> P.S. В приложении письма обновлённая схема подключения хранилищ к
> кластерам.
> 
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
> -------------- next part --------------
> A non-text attachment was scrubbed...
> Name: cluster_storage.png
> Type: image/png
> Size: 15050 bytes
> Desc: not available
> URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdc
> f6/attachment.png>
> -------------- next part --------------
> A non-text attachment was scrubbed...
> Name: cluster_storage.svg
> Type: image/svg+xml
> Size: 272007 bytes
> Desc: not available
> URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdc
> f6/attachment.svg>
> 
> ------------------------------
> 
> Subject: Digest Footer
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
> 
> 
> ------------------------------
> 
> End of hpc Digest, Vol 37, Issue 1
> **********************************
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998