[mephi-hpc] ограничение времени?

Phil Korneev korneev at theor.mephi.ru
Sat Mar 28 23:02:15 MSK 2015


Добрый день,

спасибо за ответ. Вы уверены, что в walltime сумма астрономического времени
по всем ядрам? Раньше это было полное время, по крайней мере если было бы
не так, мой вопрос появился бы с самого начала, но раньше задача
досчитывалась без проблем. Что-то изменилось в настройках?

Спасибо, ф.корнеев




2015-03-28 22:00 GMT+03:00 Andrew A. Savchenko <aasavchenko at ut.mephi.ru>:

> Здравствуйте,
>
> Ваша проблема состоит из двух разных вопросов. Начну с первого.
>
> On Sat, 28 Mar 2015 00:17:45 +0300 Phil Korneev wrote:
> > Добрый день, в последнее время (около двух недель) моя задача всё время
> > снимается со счёта, причём иногда это выглядит так (в error output)
> >
> > =>> PBS: job killed: walltime 259234 exceeded limit 259200
> >
> > Запуск задачи происходит нормально, она снимается после нескольких часов
> > счёта. Вы не могли бы прояснить, это технический сбой, или ограничение
> > времени? Если ограничение времени, почему задача ставится в очередь и
> > начинает выполняться, ведь в скрипте на запуск указано необходимое время
> > счёта.
>
> У каждой очереди есть ограничения по времени. Ознакомиться с ними
> можно с помощью стандартных средств PBS Torque:
> $ qsub -Q
>
> Рассмотрим на примере задачи ~/JOAO.COIL.MAGN.1/task, с
> stdout/stderr J.C.M1.{e,o}35210 в той же директории.
>
> В PBS хедере запрошено 72 часа walltime:
> #PBS -l walltime=72:00:00
>
> 72 часа = 259200 секунд,
> задача не уложилась в это время и была снята:
> =>> PBS: job killed: walltime 259234 exceeded limit 259200
>
> Скорее всего, Ваша ошибка в том, что walltime рассматривался как
> полное астрономическое время выполнения задачи, в реальности это
> сумма полного астрономического по всем ядрам.
>
> Для решения этой проблемы используйте очередь xxl и задайте верное
> ограничение по времени.
>
> > а иногда так
> >
> >
> [n115][[59863,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> > connect() to 192.168.137.118 failed: Connection refused (111)
> >
> [n112][[59863,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> > connect() to 10.0.101.118 failed: Connection refused (111)
>
> У нас были проблемы с сетевой инфраструктурой при очень высоких
> нагрузках. На данный момент должно быть исправлено. Если будет
> повторяться, обращайтесь и по-возможности постарайтесь описать как
> воспроизвести эту ошибку.
>
>
> На будущее настоятельно прошу указывать детальную информацию по
> проблеме, как минимум:
> - имя пользователя;
> - полная команда на запуск задачи (qsub со всеми аргументами);
> - полный путь к запускаемому скпиту или программе.
>
> Это необходимо для того, чтоб не приходилось выискивать по логам
> что и как Вы запускали и что именно у Вам получилось не так.
> Придерживание данных простых правил сэкономит наше время и ускорит
> решение Ваших проблем.
>
> Best regards,
> Andrew Savchenko
>
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
>
>


-- 
All the best ,
Philipp K
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150328/69132a63/attachment.html>


More information about the hpc mailing list