[mephi-hpc] Mpi fork problem

anikeev anikeev at ut.mephi.ru
Mon Feb 6 18:48:41 MSK 2017


On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:

Добрый вечер!

> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
> 
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
> 
> Program received signal SIGXCPU: CPU time limit exceeded.
> 
> Вот мой скрипт 
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out  
> 
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает) 
> Подскажите пожалуйста, что может вызывать проблему?  сообщений о
> багах версии 6.0 и похожих проблемах не нашла.

Здесь есть пара проблем:

1) В скрипте нужно указывать не только количество нод (серверов), но и
количество потоков (ядер) на каждом сервере. Вот пример работающего
скрипта:

anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh 
#!/bin/sh
#
#PBS -l nodes=2:ppn=8,walltime=24:00:00


mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
/home/anikeev/q_e/110.out

2) В файле 110.in указаны неверные пути:

anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
pool
  pseudo_dir   = "/home/cherenkov/unk/pool/1/qe/pseudo",
  outdir       = "/home/cherenkov/unk/pool/1/qe/tempdir",

Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
"pool/4". Unicluster может работать со всеми хранилищами.

Я собрал пример работающей задачи с работающими путями здесь:

anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
total 36K
drwxr-xr-x  4 anikeev users   4.0K Feb  6 18:33 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb  6 18:33 ..
-rw-r--r--  1 anikeev users   1.1K Feb  6 18:33 110.in
-rw-------  1 anikeev users   9.4K Feb  6 18:46 110.out
-rwxrwxr-x  1 anikeev users    131 Feb  6 18:25 110.sh
drwxr-xr-x  2 anikeev users   4.0K Feb  2 13:14 pseudo
drwx------  2 anikeev users   4.0K Feb  6 18:33 tempdir

Задача успешно запустилась:

anikeev at master.cherenkov ~/q_e $ qstat
Job ID                    Name             User            Time Use S
Queue
------------------------- ---------------- --------------- -------- -
-----
19159.master               110.sh           anikeev         09:36:48 R
medium

и что-то считает:

anikeev at master.cherenkov ~/q_e $ tail -f 110.out 
     negative rho (up, down):  8.839E-03 0.000E+00

     total cpu time spent up to now is      602.6 secs

     total energy              =    -425.40656471 Ry
     Harris-Foulkes estimate   =    -425.40659146 Ry
     estimated scf accuracy    <       0.00006385 Ry

     iteration #  9     ecut=    28.00 Ry     beta=0.30
     Davidson diagonalization with overlap

Результаты я оценить не могу, это не моя область физики.

> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998


More information about the hpc mailing list