[mephi-hpc] система очередей

Andrew A. Savchenko bircoph at ut.mephi.ru
Sat Oct 26 18:27:44 MSK 2013


Здравствуйте,

On Sat, 26 Oct 2013 14:06:41 +0300 Kseniya Komarova wrote:
> Добрый день.
> Не могли бы вы пояснить следующее. Почему задача продолжает стоять в
> очереди, если при этом есть свободные ноды для расчета?
> Например, задача на 32 процессора, и lspbs сообщает, что 44 ноды свободны.

Во-первых, под данным lspbs свободно не 44 ноды, а 44 процессора; у
нас всего 13 нод (полнофункциональных узлов).

Во-вторых, lspbs говорит лишь о доступности CPU узла, но не учитывает
недоступность узла из-за иных проблем (например, нехватка места на
диске). Для этого есть showq, который показывает, что на самом деле
доступно лишь 4 CPU:

2 Active Jobs      64 of   68 Processors Active (94.12%)

На остальных пяти узлах возникли неполадки, связанные с переполнением
дискового пространства, которого у нас очень мало. Что, в свою
очередь было вызвано слишком ранним пуском pvfs2 (ещё не готовой к
некоторым видам нагрузок), сделанным по просьбе пользователя.

Сейчас проблема устранена, задачи пошли.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20131026/62b57b04/attachment.sig>


More information about the hpc mailing list