[mephi-hpc] статус задачи Deferred

Andrew A. Savchenko bircoph at ut.mephi.ru
Thu Dec 12 21:51:10 MSK 2013


Добрый вечер,

On Wed, 11 Dec 2013 15:33:42 +0400 Kseniya Komarova wrote:
> Здравствуйте, уважаемые администраторы. Пишу на 2 адреса,
> поскольку предыдущие письма на mail list возвращались с пометкой не
> доставлено. 

К сожалению, у нас был сбой почты после её переезда, сейчас всё должно
работать.

> В очередной раз у меня задача попала в статус Deferred (jobname 18036).
> Что делать? На кластере больше задач в данный момент не считается, а задача стоит в очереди. Можно ли как-то пересмотреть условия попадания задачи в этот статус или сократить время, в течение которого задача в этом статусе числится?

Время ожидания сократил до 5 минут (ранее был один час). Задача
попадает в Deferred после 3 неудачных попыток запуска.

Причину я посмотрел и заключается она в перегрузке сетевого
коммутатора MPI (преимущественно) и Storage трафиком. Это можно
устранить, выделив гарантированную полосу пропускания для PBS, но
неизбежным результатом будет падение отзывчивости MPI.

У нас запланировано изменение сетевой инфраструктуры для решения этой
проблемы, но именно этой задачей мы займёмся несколько позднее.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20131212/0e443a8d/attachment.sig>


More information about the hpc mailing list