[mephi-hpc] Mpi fork problem
anikeev
anikeev at ut.mephi.ru
Mon Feb 6 18:48:41 MSK 2017
On Mon, 2017-02-06 at 14:34 +0000, Курельчук Ульяна Николаевна wrote:
Добрый вечер!
> Здравствуйте! Считаю в QuatnumEspresso -6.0, сталкиваюсь с такой
> проблемой:
>
> unk at master.cherenkov /home/cherenkov/unk/pool/1/qe/work $ sh rx.sh
>
> Program received signal SIGXCPU: CPU time limit exceeded.
>
> Вот мой скрипт
> #!/bin/sh
> #
> #PBS -l nodes=16, walltime=24:00:00
> mpirun -np 16 /usr/bin/pw.x < 100.in > 100.out
>
> ( -np не ошибка, с эспрессо приходится указывать, иначе считает на 1.
> кстати в этом случае проблема тоже возникает)
> Подскажите пожалуйста, что может вызывать проблему? сообщений о
> багах версии 6.0 и похожих проблемах не нашла.
Здесь есть пара проблем:
1) В скрипте нужно указывать не только количество нод (серверов), но и
количество потоков (ядер) на каждом сервере. Вот пример работающего
скрипта:
anikeev at master.cherenkov ~/q_e $ cat /home/anikeev/q_e/110.sh
#!/bin/sh
#
#PBS -l nodes=2:ppn=8,walltime=24:00:00
mpirun /usr/bin/pw.x < /home/anikeev/q_e/110.in >
/home/anikeev/q_e/110.out
2) В файле 110.in указаны неверные пути:
anikeev at master.cherenkov /home/unk/pool/1/qe/work $ cat 110.in | grep
pool
pseudo_dir = "/home/cherenkov/unk/pool/1/qe/pseudo",
outdir = "/home/cherenkov/unk/pool/1/qe/tempdir",
Хранилища "pool/1" и "pool/2" предназначены для работы с кластерами
unicluster и basov. Кластер cherenkov использует хранилища "pool/3" и
"pool/4". Unicluster может работать со всеми хранилищами.
Я собрал пример работающей задачи с работающими путями здесь:
anikeev at master.cherenkov ~/q_e $ ls -lah /home/anikeev/q_e/
total 36K
drwxr-xr-x 4 anikeev users 4.0K Feb 6 18:33 .
drwxr-xr-x 18 anikeev anikeev 4.0K Feb 6 18:33 ..
-rw-r--r-- 1 anikeev users 1.1K Feb 6 18:33 110.in
-rw------- 1 anikeev users 9.4K Feb 6 18:46 110.out
-rwxrwxr-x 1 anikeev users 131 Feb 6 18:25 110.sh
drwxr-xr-x 2 anikeev users 4.0K Feb 2 13:14 pseudo
drwx------ 2 anikeev users 4.0K Feb 6 18:33 tempdir
Задача успешно запустилась:
anikeev at master.cherenkov ~/q_e $ qstat
Job ID Name User Time Use S
Queue
------------------------- ---------------- --------------- -------- -
-----
19159.master 110.sh anikeev 09:36:48 R
medium
и что-то считает:
anikeev at master.cherenkov ~/q_e $ tail -f 110.out
negative rho (up, down): 8.839E-03 0.000E+00
total cpu time spent up to now is 602.6 secs
total energy = -425.40656471 Ry
Harris-Foulkes estimate = -425.40659146 Ry
estimated scf accuracy < 0.00006385 Ry
iteration # 9 ecut= 28.00 Ry beta=0.30
Davidson diagonalization with overlap
Результаты я оценить не могу, это не моя область физики.
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list