[mephi-hpc] ограничение времени?
Andrew A. Savchenko
aasavchenko at ut.mephi.ru
Sat Mar 28 22:00:53 MSK 2015
Здравствуйте,
Ваша проблема состоит из двух разных вопросов. Начну с первого.
On Sat, 28 Mar 2015 00:17:45 +0300 Phil Korneev wrote:
> Добрый день, в последнее время (около двух недель) моя задача всё время
> снимается со счёта, причём иногда это выглядит так (в error output)
>
> =>> PBS: job killed: walltime 259234 exceeded limit 259200
>
> Запуск задачи происходит нормально, она снимается после нескольких часов
> счёта. Вы не могли бы прояснить, это технический сбой, или ограничение
> времени? Если ограничение времени, почему задача ставится в очередь и
> начинает выполняться, ведь в скрипте на запуск указано необходимое время
> счёта.
У каждой очереди есть ограничения по времени. Ознакомиться с ними
можно с помощью стандартных средств PBS Torque:
$ qsub -Q
Рассмотрим на примере задачи ~/JOAO.COIL.MAGN.1/task, с
stdout/stderr J.C.M1.{e,o}35210 в той же директории.
В PBS хедере запрошено 72 часа walltime:
#PBS -l walltime=72:00:00
72 часа = 259200 секунд,
задача не уложилась в это время и была снята:
=>> PBS: job killed: walltime 259234 exceeded limit 259200
Скорее всего, Ваша ошибка в том, что walltime рассматривался как
полное астрономическое время выполнения задачи, в реальности это
сумма полного астрономического по всем ядрам.
Для решения этой проблемы используйте очередь xxl и задайте верное
ограничение по времени.
> а иногда так
>
> [n115][[59863,1],32][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> connect() to 192.168.137.118 failed: Connection refused (111)
> [n112][[59863,1],95][btl_tcp_endpoint.c:657:mca_btl_tcp_endpoint_complete_connect]
> connect() to 10.0.101.118 failed: Connection refused (111)
У нас были проблемы с сетевой инфраструктурой при очень высоких
нагрузках. На данный момент должно быть исправлено. Если будет
повторяться, обращайтесь и по-возможности постарайтесь описать как
воспроизвести эту ошибку.
На будущее настоятельно прошу указывать детальную информацию по
проблеме, как минимум:
- имя пользователя;
- полная команда на запуск задачи (qsub со всеми аргументами);
- полный путь к запускаемому скпиту или программе.
Это необходимо для того, чтоб не приходилось выискивать по логам
что и как Вы запускали и что именно у Вам получилось не так.
Придерживание данных простых правил сэкономит наше время и ускорит
решение Ваших проблем.
Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 819 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150328/7897244f/attachment.sig>
More information about the hpc
mailing list