[mephi-hpc] ограничение времени?

Phil Korneev korneev at theor.mephi.ru
Tue Mar 31 22:45:16 MSK 2015


Добрый день,

проблема повторилась.

user: phkorneev
pbs script: ~/pool/JOAO.COIL.MAGN.2/task

error log:
 [n118][[59096,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
connect() to 10.0.101.122 failed: Connection refused (111)
[n115][[59096,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
connect() to 10.0.101.122 failed: Connection refused (111)

output from the program (~/pool/picls3d.B5+/exe/picls3d)

............
 finished fields
 finished fields
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 31727 on node n121 exited on
signal 9 (Killed).
--------------------------------------------------------------------------

с уважением, ф.корнеев


2015-03-29 17:56 GMT+03:00 Andrew A. Savchenko <aasavchenko at ut.mephi.ru>:

> On Sat, 28 Mar 2015 23:02:15 +0300 Phil Korneev wrote:
> > Добрый день,
> >
> > спасибо за ответ. Вы уверены, что в walltime сумма астрономического
> времени
> > по всем ядрам?
>
> Нет, я ошибся (хорошее доказательство того, что нечего работать по
> выходным :)). Сейчас я проверил работу текущих задач. walltime —
> это астрономическое время, прошедшее с момента старта задачи
> (независимо от числа ядер).
>
> > Раньше это было полное время, по крайней мере если было бы
> > не так, мой вопрос появился бы с самого начала, но раньше задача
> > досчитывалась без проблем. Что-то изменилось в настройках?
>
> Настройки PBS на этом кластере мы давно не меняли, так что не в
> этом дело. По логам я вижу всего три Ваших задачи, завершённых по
> превышению лимита времени:
> JOAO_test.5-/J.A.5-.e1673
> JOAO.COIL.MAGN.1/J.C.M1.e35210
> JOAO_test.7-B+E/J.A.7-BE.e22141
>
> Все они очень старые, поэтому полной информации о задачах не
> сохранилось (мы храним её неделю после завершения). Скорее всего,
> лимит времени действительно был превышен (особенно для задачи 1673,
> где он был установлен в сутки).
>
> Если проблема будет повторяться в будущем, сообщайте сразу.
>
> Best regards,
> Andrew Savchenko
>



-- 
All the best ,
Philipp K
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150331/64e8b57a/attachment.html>


More information about the hpc mailing list