[mephi-hpc] ограничение времени?

anikeev anikeev at ut.mephi.ru
Wed Apr 1 12:21:06 MSK 2015


Здравствуйте!

Ваша проблема связана с нехваткой оперативной памяти. Поскольку Ваша
задача задействовала не все процессоры на узлах:

#PBS -l nodes=6:ppn=16

то на узле n121 выполнялись задачи двух пользователей - phkorneev и
shargatov. Этим задачам не хватило памяти и они были аварийно
остановлены.

Для гарантированного выделения памяти Вы можете либо задавать требуемый
объём непосредственно:

#PBS -l nodes=6:ppn=16,mem=10gb

либо использовать узлы целиком:

#PBS -l nodes=6

Тогда ошибки при работе с памятью не будут зависеть от других
пользователей, и Вы сможете настроить программное обеспечение под работу
на имеющемся оборудовании.

Более подробную информацию по запросу ресурсов можно найти здесь:

http://docs.adaptivecomputing.com/suite/8-0/basic/help.htm#topics/torque/2-jobs/requestingRes.htm%3FTocPath%3DTORQUE%2520Resource%2520Manager|Submitting%2520and%2520managing%2520jobs|Job%2520submission|_____3

Кроме этого, рекомендую проверить Вашу программу на утечки оперативной
памяти. Для этого можно использовать valgrind.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
On Tue, 2015-03-31 at 22:45 +0300, Phil Korneev wrote:
> Добрый день,
> 
> 
> проблема повторилась.
> 
> 
> user: phkorneev
> pbs script: ~/pool/JOAO.COIL.MAGN.2/task
> 
> 
> error log: 
>  [n118][[59096,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect] connect() to 10.0.101.122 failed: Connection refused (111)
> 
> [n115][[59096,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect] connect() to 10.0.101.122 failed: Connection refused (111)
> 
> 
> output from the program (~/pool/picls3d.B5+/exe/picls3d)
> 
> 
> ............
>  finished fields
>  finished fields
> --------------------------------------------------------------------------
> mpirun noticed that process rank 0 with PID 31727 on node n121 exited
> on signal 9 (Killed).
> --------------------------------------------------------------------------
> 
> 
> с уважением, ф.корнеев
> 
> 
> 
> 2015-03-29 17:56 GMT+03:00 Andrew A. Savchenko
> <aasavchenko at ut.mephi.ru>:
>         On Sat, 28 Mar 2015 23:02:15 +0300 Phil Korneev wrote:
>         > Добрый день,
>         >
>         > спасибо за ответ. Вы уверены, что в walltime сумма
>         астрономического времени
>         > по всем ядрам?
>         
>         Нет, я ошибся (хорошее доказательство того, что нечего
>         работать по
>         выходным :)). Сейчас я проверил работу текущих задач. walltime
>>         это астрономическое время, прошедшее с момента старта задачи
>         (независимо от числа ядер).
>         
>         > Раньше это было полное время, по крайней мере если было бы
>         > не так, мой вопрос появился бы с самого начала, но раньше
>         задача
>         > досчитывалась без проблем. Что-то изменилось в настройках?
>         
>         Настройки PBS на этом кластере мы давно не меняли, так что не
>         в
>         этом дело. По логам я вижу всего три Ваших задачи, завершённых
>         по
>         превышению лимита времени:
>         JOAO_test.5-/J.A.5-.e1673
>         JOAO.COIL.MAGN.1/J.C.M1.e35210
>         JOAO_test.7-B+E/J.A.7-BE.e22141
>         
>         Все они очень старые, поэтому полной информации о задачах не
>         сохранилось (мы храним её неделю после завершения). Скорее
>         всего,
>         лимит времени действительно был превышен (особенно для задачи
>         1673,
>         где он был установлен в сутки).
>         
>         Если проблема будет повторяться в будущем, сообщайте сразу.
>         
>         Best regards,
>         Andrew Savchenko
> 
> 
> 
> 
> -- 
> All the best , 
> Philipp K
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc

-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150401/e0a9de94/attachment.sig>


More information about the hpc mailing list