[mephi-hpc] hpc Digest, Vol 37, Issue 1
anikeev
anikeev at ut.mephi.ru
Tue Feb 7 17:17:43 MSK 2017
On Tue, 2017-02-07 at 13:40 +0000, Курельчук Ульяна Николаевна wrote:
Добрый день!
> Спасибо! Все-таки я недопонимаю, помогите пожалуйста разобраться.
> Перенесла рабочую директорию в pool/3 и запускала оттуда свой скрипт,
> который исправила по примеру вашего. Однако проблема осталась.
> Пробовала указывать в скрипте и в инпуте пути по-
> разному, /home/unk/pool/3/qe/, /home/cherenkov/unk/pool/3/qe/, в
> т.ч. как раньше просто <100.in >100.out, результат один. Задача
> запускается, как и раньше, выдача идет в ту папку, где скрипт, все
> нормально. Забыла сказать в первом письме, что задача запускалась и
> работала несколько минут, а потом обрывалась с fork error.
> Протестировала еще пару задач test1, test2: test2 с тем же
> алгоритмом, что и сабж, но требует меньше ресурсов, test1 с другим
> алгоритмом, обе отрабатывают до конца. По всему выходит, что дело в
> алгоритме и ресурсах памяти?
> А у вас та задача досчиталась до конца? Нет доступа к вашему 110.out.
Я посмотрел историю Ваших действий. У Вас есть ошибка в запуске задачи:
master.cherenkov q_e # cat /home/unk/.bash_history | grep sh
...
sh rx.sh
Скрипты нужно запускать через менеджер ресурсов утилитой qsub:
qsub rx.sh
Я открыл доступ к своим файлам в директории:
anikeev at master.cherenkov ~/q_e $ ls -lah
total 64K
drwxr-xr-x 4 anikeev users 4.0K Feb 6 19:49 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb 7 16:11 ..
-rwxr-xr-x 1 anikeev users 1.1K Feb 6 18:33 110.in
-rwxr-xr-x 1 anikeev users 31K Feb 6 19:49 110.out
-rwxr-xr-x 1 anikeev users 131 Feb 6 18:25 110.sh
-rwxr-xr-x 1 anikeev users 1.3K Feb 6 19:49 110.sh.e19159
-rwxr-xr-x 1 anikeev users 0 Feb 6 18:33 110.sh.o19159
drwxr-xr-x 2 anikeev users 4.0K Feb 2 13:14 pseudo
drwxr-xr-x 3 anikeev users 4.0K Feb 6 19:49 tempdir
Задача завершилась с ошибкой, обработанной самой программой:
anikeev at master.cherenkov ~/q_e $ tail -f 110.out
Au 0.000000000 0.000000000 15.773872063
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%
Error in routine checkallsym (1):
some of the original symmetry operations not satisfied
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%
stopping ...
Для решения этой проблемы нужно разбираться в физике.
> ________________________________________
> От: hpc [hpc-bounces at lists.mephi.ru] от
> имени hpc-request at lists.mephi.ru [hpc-r
> equest at lists.mephi.ru]
> Отправлено: 6 февраля 2017 г. 18:54
> Кому: hpc at lists.mephi.ru
> Тема: hpc Digest, Vol 37, Issue 1
>
> Send hpc mailing list submissions to
> hpc at lists.mephi.ru
>
> To subscribe or unsubscribe via the World Wide Web, visit
> https://lists.mephi.ru/listinfo/hpc
> or, via email, send a message with subject or body 'help' to
> hpc-request at lists.mephi.ru
>
> You can reach the person managing the list at
> hpc-owner at lists.mephi.ru
>
> When replying, please edit your Subject line so it is more specific
> than "Re: Contents of hpc digest..."
>
>
> Today's Topics:
>
> 1. Mpi fork problem
> (Курельчук Ульяна Николаевна)
> 2. Re: Mpi fork problem (anikeev)
> 3. Re: Mpi fork problem (anikeev)
> 4. Re: Mpi fork problem (anikeev)
>
>
> -------------------------------------------------------------------
> ---
>
> Message: 1
> Date: Mon, 6 Feb 2017 14:34:03 +0000
> From: Курельчук Ульяна Николаевна
> <UNKurelchuk at mephi.ru>
> To: "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: [mephi-hpc] Mpi fork problem
> Message-ID: <e91f44c2fe3a465889cea74308e770d1 at mail-stor.mephi.ru>
> Content-Type: text/plain; charset="koi8-r"
>
> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
>
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
> -------------------------------------------------------------------
> -------
> An MPI process has executed an operation involving a call to the
> "fork()" system call to create a child process. Open MPI is
> currently
> operating in a condition that could result in memory corruption or
> other system errors; your MPI job may hang, crash, or produce silent
> data corruption. The use of fork() (or system() or other calls that
> create child processes) is strongly discouraged.
>
> The process that invoked fork was:
>
> Local host: master (PID 32167)
> MPI_COMM_WORLD rank: 0
>
> If you are *absolutely sure* that your application will successfully
> and correctly survive a call to fork(), you may disable this warning
> by setting the mpi_warn_on_fork MCA parameter to 0.
> -------------------------------------------------------------------
> -------
> #0 0x7FEFD1118407
> #1 0x7FEFD1118A1E
> #2 0x7FEFD04160DF
> #3 0x7FEFD197F372
> #4 0x7FEFD18C547F
> #5 0x7FEF7B23B7B6
> #6 0x7FEF7B243501
> #7 0x7FEFD18D290A
> #8 0x7FEFD1C1C722
> #9 0x841ABE in fftw_import_wisdom
> #10 0x636837
> #11 0x54C0C5
> #12 0x535B75
> #13 0x536BA0
> #14 0x40C2A2
> #15 0x411DF4
> #16 0x4CA217
> #17 0x408F73
> #18 0x408C0C
> #19 0x7FEFD0402B44
> #20 0x408C35
> #21 0xFFFFFFFFFFFFFFFF
> -------------------------------------------------------------------
> -------
> mpirun noticed that process rank 0 with PID 32167 on node master
> exited on signal 24 (CPU time limit exceeded).
>
> Вот мой скрипт
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
>
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает)
>
> В выдаче программы есть оценка ресурсов:
>
> Estimated max dynamical RAM per process > 10.58Mb
>
> Estimated total allocated dynamical RAM > 169.33Mb вроде не так
> много(
>
> Пробовала запускать с mpirun --mca mpi_warn_on_fork 0, но
>
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Backtrace for this error:
> #0 0x7F055FC39407
> #1 0x7F055FC39A1E
> #2 0x7F055EF370DF
> #3 0x7F050AC21000
> #4 0x7F05604A0349
> #5 0x7F05603E5E37
> #6 0x7F0509D6303D
> #7 0x7F0509D633F4
> #8 0x7F0509D5AC02
> #9 0x7F0509F73864
> #10 0x7F05603F3CCC
> #11 0x7F056073D7A3
> #12 0x7F0563B220C7
> #13 0x7F0563B24BEF
> #14 0x7F0563B2E900
> #15 0x84F1F0 in fftw_import_wisdom
> #16 0x636928
> #17 0x54C0C5
> #18 0x535B75
> #19 0x536BA0
> #20 0x40C2A2
> #21 0x411DF4
> #22 0x4CA217
> #23 0x408F73
> #24 0x408C0C
> #25 0x7F055EF23B44
> #26 0x408C35
> #27 0xFFFFFFFFFFFFFFFF
> -------------------------------------------------------------------
> -------
> mpirun noticed that process rank 4 with PID 8519 on node master
> exited on signal 24 (CPU time limit exceeded).
>
> Подскажите пожалуйста, что может вызывать проблему? сообщений о
> багах версии 6.0 и похожих проблемах не нашла.
>
> ------------------------------
>
> Message: 2
> Date: Mon, 06 Feb 2017 18:48:41 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
> "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="UTF-8"
>
> On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
>
> Добрый вечер!
>
> > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > проблемой:
> >
> > unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> >
> > Program received signal SIGXCPU: CPU time limit exceeded.
> >
> > Вот мой скрипт
> > #!/bin/sh
> > #
> > #PBS -l nodes=16, walltime=24:00:00
> > mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
> >
> > ( -np не ошибка, с эспрессо приходится указывать, иначе считает на
> > 1.
> > кстати в этом случае проблема тоже возникает)
> > Подскажите пожалуйста, что может вызывать проблему? сообщений о
> > багах версии 6.0 и похожих проблемах не нашла.
>
> Здесь есть пара проблем:
>
> 1) В скрипте нужно указывать не только количество нод (серверов), но
> и
> количество потоков (ядер) на каждом сервере. Вот пример работающего
> скрипта:
>
> anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
> #!/bin/sh
> #
> #PBS -l nodes=2:ppn=8,walltime=24:00:00
>
>
> mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
> /home/anikeev/q_e/110.out
>
> 2) В файле 110.in указаны неверные пути:
>
> anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
> pool
> pseudo_dir = "/home/cherenkov/unk/pool/1/qe/pseudo",
> outdir = "/home/cherenkov/unk/pool/1/qe/tempdir",
>
> Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
> unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
> "pool/4". Unicluster может работать со всеми хранилищами.
>
> Я собрал пример работающей задачи с работающими путями здесь:
>
> anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
> total 36K
> drwxr-xr-x 4 anikeev users 4.0K Feb 6 18:33 .
> drwxr-xr-x 18 anikeev anikeev 4.0K Feb 6 18:33 ..
> -rw-r--r-- 1 anikeev users 1.1K Feb 6 18:33 110.in
> -rw------- 1 anikeev users 9.4K Feb 6 18:46 110.out
> -rwxrwxr-x 1 anikeev users 131 Feb 6 18:25 110.sh
> drwxr-xr-x 2 anikeev users 4.0K Feb 2 13:14 pseudo
> drwx------ 2 anikeev users 4.0K Feb 6 18:33 tempdir
>
> Задача успешно запустилась:
>
> anikeev at master.cherenkov ~/q_e $ qstat
> Job ID Name User Time Use S
> Queue
> ------------------------- ---------------- --------------- -------- -
> -----
> 19159.master 110.sh anikeev 09:36:48
> R
> medium
>
> и что-то считает:
>
> anikeev at master.cherenkov ~/q_e $ tail -f 110.out
> negative rho (up, down): 8.839E-03 0.000E+00
>
> total cpu time spent up to now is 602.6 secs
>
> total energy = -425.40656471 Ry
> Harris-Foulkes estimate = -425.40659146 Ry
> estimated scf accuracy < 0.00006385 Ry
>
> iteration # 9 ecut= 28.00 Ry beta=0.30
> Davidson diagonalization with overlap
>
> Результаты я оценить не могу, это не моя область физики.
>
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
>
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
>
> ------------------------------
>
> Message: 3
> Date: Mon, 06 Feb 2017 18:48:41 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>,
> "hpc at lists.ut.mephi.ru" <hpc at lists.ut.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396121.14711.1.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="UTF-8"
>
> On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
>
> Добрый вечер!
>
> > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > проблемой:
> >
> > unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> >
> > Program received signal SIGXCPU: CPU time limit exceeded.
> >
> > Вот мой скрипт
> > #!/bin/sh
> > #
> > #PBS -l nodes=16, walltime=24:00:00
> > mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
> >
> > ( -np не ошибка, с эспрессо приходится указывать, иначе считает на
> > 1.
> > кстати в этом случае проблема тоже возникает)
> > Подскажите пожалуйста, что может вызывать проблему? сообщений о
> > багах версии 6.0 и похожих проблемах не нашла.
>
> Здесь есть пара проблем:
>
> 1) В скрипте нужно указывать не только количество нод (серверов), но
> и
> количество потоков (ядер) на каждом сервере. Вот пример работающего
> скрипта:
>
> anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
> #!/bin/sh
> #
> #PBS -l nodes=2:ppn=8,walltime=24:00:00
>
>
> mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
> /home/anikeev/q_e/110.out
>
> 2) В файле 110.in указаны неверные пути:
>
> anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
> pool
> pseudo_dir = "/home/cherenkov/unk/pool/1/qe/pseudo",
> outdir = "/home/cherenkov/unk/pool/1/qe/tempdir",
>
> Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
> unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
> "pool/4". Unicluster может работать со всеми хранилищами.
>
> Я собрал пример работающей задачи с работающими путями здесь:
>
> anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
> total 36K
> drwxr-xr-x 4 anikeev users 4.0K Feb 6 18:33 .
> drwxr-xr-x 18 anikeev anikeev 4.0K Feb 6 18:33 ..
> -rw-r--r-- 1 anikeev users 1.1K Feb 6 18:33 110.in
> -rw------- 1 anikeev users 9.4K Feb 6 18:46 110.out
> -rwxrwxr-x 1 anikeev users 131 Feb 6 18:25 110.sh
> drwxr-xr-x 2 anikeev users 4.0K Feb 2 13:14 pseudo
> drwx------ 2 anikeev users 4.0K Feb 6 18:33 tempdir
>
> Задача успешно запустилась:
>
> anikeev at master.cherenkov ~/q_e $ qstat
> Job ID Name User Time Use S
> Queue
> ------------------------- ---------------- --------------- -------- -
> -----
> 19159.master 110.sh anikeev 09:36:48
> R
> medium
>
> и что-то считает:
>
> anikeev at master.cherenkov ~/q_e $ tail -f 110.out
> negative rho (up, down): 8.839E-03 0.000E+00
>
> total cpu time spent up to now is 602.6 secs
>
> total energy = -425.40656471 Ry
> Harris-Foulkes estimate = -425.40659146 Ry
> estimated scf accuracy < 0.00006385 Ry
>
> iteration # 9 ecut= 28.00 Ry beta=0.30
> Davidson diagonalization with overlap
>
> Результаты я оценить не могу, это не моя область физики.
>
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
>
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
>
> ------------------------------
>
> Message: 4
> Date: Mon, 06 Feb 2017 18:54:27 +0300
> From: anikeev <anikeev at ut.mephi.ru>
> To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>
> Subject: Re: [mephi-hpc] Mpi fork problem
> Message-ID: <1486396467.14711.3.camel at ut.mephi.ru>
> Content-Type: text/plain; charset="utf-8"
>
> On Mon, 2017-02-06 at 18:48 +0300, anikeev wrote:
> > On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна
> > wrote:
> >
> > Добрый вечер!
> >
> > > Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> > > проблемой:
>
> P.S. В приложении письма обновлённая схема подключения хранилищ к
> кластерам.
>
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
> -------------- next part --------------
> A non-text attachment was scrubbed...
> Name: cluster_storage.png
> Type: image/png
> Size: 15050 bytes
> Desc: not available
> URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdc
> f6/attachment.png>
> -------------- next part --------------
> A non-text attachment was scrubbed...
> Name: cluster_storage.svg
> Type: image/svg+xml
> Size: 272007 bytes
> Desc: not available
> URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170206/bb9fdc
> f6/attachment.svg>
>
> ------------------------------
>
> Subject: Digest Footer
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
>
> ------------------------------
>
> End of hpc Digest, Vol 37, Issue 1
> **********************************
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list