[mephi-hpc] ограничение времени?
anikeev
anikeev at ut.mephi.ru
Wed Apr 1 12:21:06 MSK 2015
Здравствуйте!
Ваша проблема связана с нехваткой оперативной памяти. Поскольку Ваша
задача задействовала не все процессоры на узлах:
#PBS -l nodes=6:ppn=16
то на узле n121 выполнялись задачи двух пользователей - phkorneev и
shargatov. Этим задачам не хватило памяти и они были аварийно
остановлены.
Для гарантированного выделения памяти Вы можете либо задавать требуемый
объём непосредственно:
#PBS -l nodes=6:ppn=16,mem=10gb
либо использовать узлы целиком:
#PBS -l nodes=6
Тогда ошибки при работе с памятью не будут зависеть от других
пользователей, и Вы сможете настроить программное обеспечение под работу
на имеющемся оборудовании.
Более подробную информацию по запросу ресурсов можно найти здесь:
http://docs.adaptivecomputing.com/suite/8-0/basic/help.htm#topics/torque/2-jobs/requestingRes.htm%3FTocPath%3DTORQUE%2520Resource%2520Manager|Submitting%2520and%2520managing%2520jobs|Job%2520submission|_____3
Кроме этого, рекомендую проверить Вашу программу на утечки оперативной
памяти. Для этого можно использовать valgrind.
С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
On Tue, 2015-03-31 at 22:45 +0300, Phil Korneev wrote:
> Добрый день,
>
>
> проблема повторилась.
>
>
> user: phkorneev
> pbs script: ~/pool/JOAO.COIL.MAGN.2/task
>
>
> error log:
> [n118][[59096,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect] connect() to 10.0.101.122 failed: Connection refused (111)
>
> [n115][[59096,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect] connect() to 10.0.101.122 failed: Connection refused (111)
>
>
> output from the program (~/pool/picls3d.B5+/exe/picls3d)
>
>
> ............
> finished fields
> finished fields
> --------------------------------------------------------------------------
> mpirun noticed that process rank 0 with PID 31727 on node n121 exited
> on signal 9 (Killed).
> --------------------------------------------------------------------------
>
>
> с уважением, ф.корнеев
>
>
>
> 2015-03-29 17:56 GMT+03:00 Andrew A. Savchenko
> <aasavchenko at ut.mephi.ru>:
> On Sat, 28 Mar 2015 23:02:15 +0300 Phil Korneev wrote:
> > Добрый день,
> >
> > спасибо за ответ. Вы уверены, что в walltime сумма
> астрономического времени
> > по всем ядрам?
>
> Нет, я ошибся (хорошее доказательство того, что нечего
> работать по
> выходным :)). Сейчас я проверил работу текущих задач. walltime
> —
> это астрономическое время, прошедшее с момента старта задачи
> (независимо от числа ядер).
>
> > Раньше это было полное время, по крайней мере если было бы
> > не так, мой вопрос появился бы с самого начала, но раньше
> задача
> > досчитывалась без проблем. Что-то изменилось в настройках?
>
> Настройки PBS на этом кластере мы давно не меняли, так что не
> в
> этом дело. По логам я вижу всего три Ваших задачи, завершённых
> по
> превышению лимита времени:
> JOAO_test.5-/J.A.5-.e1673
> JOAO.COIL.MAGN.1/J.C.M1.e35210
> JOAO_test.7-B+E/J.A.7-BE.e22141
>
> Все они очень старые, поэтому полной информации о задачах не
> сохранилось (мы храним её неделю после завершения). Скорее
> всего,
> лимит времени действительно был превышен (особенно для задачи
> 1673,
> где он был установлен в сутки).
>
> Если проблема будет повторяться в будущем, сообщайте сразу.
>
> Best regards,
> Andrew Savchenko
>
>
>
>
> --
> All the best ,
> Philipp K
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150401/e0a9de94/attachment.sig>
More information about the hpc
mailing list