[mephi-hpc] ограничение времени?

Andrew A. Savchenko aasavchenko at ut.mephi.ru
Sat Mar 28 22:00:53 MSK 2015


Здравствуйте,

Ваша проблема состоит из двух разных вопросов. Начну с первого.

On Sat, 28 Mar 2015 00:17:45 +0300 Phil Korneev wrote:
> Добрый день, в последнее время (около двух недель) моя задача всё время
> снимается со счёта, причём иногда это выглядит так (в error output)
> 
> =>> PBS: job killed: walltime 259234 exceeded limit 259200
> 
> Запуск задачи происходит нормально, она снимается после нескольких часов
> счёта. Вы не могли бы прояснить, это технический сбой, или ограничение
> времени? Если ограничение времени, почему задача ставится в очередь и
> начинает выполняться, ведь в скрипте на запуск указано необходимое время
> счёта.

У каждой очереди есть ограничения по времени. Ознакомиться с ними
можно с помощью стандартных средств PBS Torque:
$ qsub -Q

Рассмотрим на примере задачи ~/JOAO.COIL.MAGN.1/task, с
stdout/stderr J.C.M1.{e,o}35210 в той же директории.

В PBS хедере запрошено 72 часа walltime:
#PBS -l walltime=72:00:00

72 часа = 259200 секунд,
задача не уложилась в это время и была снята:
=>> PBS: job killed: walltime 259234 exceeded limit 259200

Скорее всего, Ваша ошибка в том, что walltime рассматривался как
полное астрономическое время выполнения задачи, в реальности это
сумма полного астрономического по всем ядрам.

Для решения этой проблемы используйте очередь xxl и задайте верное
ограничение по времени.

> а иногда так
> 
> [n115][[59863,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> connect() to 192.168.137.118 failed: Connection refused (111)
> [n112][[59863,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> connect() to 10.0.101.118 failed: Connection refused (111)

У нас были проблемы с сетевой инфраструктурой при очень высоких
нагрузках. На данный момент должно быть исправлено. Если будет
повторяться, обращайтесь и по-возможности постарайтесь описать как
воспроизвести эту ошибку.


На будущее настоятельно прошу указывать детальную информацию по
проблеме, как минимум:
- имя пользователя;
- полная команда на запуск задачи (qsub со всеми аргументами);
- полный путь к запускаемому скпиту или программе.

Это необходимо для того, чтоб не приходилось выискивать по логам
что и как Вы запускали и что именно у Вам получилось не так.
Придерживание данных простых правил сэкономит наше время и ускорит
решение Ваших проблем.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 819 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150328/7897244f/attachment.sig>


More information about the hpc mailing list