[mephi-hpc] система очередей
Andrew A. Savchenko
bircoph at ut.mephi.ru
Sat Oct 26 18:27:44 MSK 2013
Здравствуйте,
On Sat, 26 Oct 2013 14:06:41 +0300 Kseniya Komarova wrote:
> Добрый день.
> Не могли бы вы пояснить следующее. Почему задача продолжает стоять в
> очереди, если при этом есть свободные ноды для расчета?
> Например, задача на 32 процессора, и lspbs сообщает, что 44 ноды свободны.
Во-первых, под данным lspbs свободно не 44 ноды, а 44 процессора; у
нас всего 13 нод (полнофункциональных узлов).
Во-вторых, lspbs говорит лишь о доступности CPU узла, но не учитывает
недоступность узла из-за иных проблем (например, нехватка места на
диске). Для этого есть showq, который показывает, что на самом деле
доступно лишь 4 CPU:
2 Active Jobs 64 of 68 Processors Active (94.12%)
На остальных пяти узлах возникли неполадки, связанные с переполнением
дискового пространства, которого у нас очень мало. Что, в свою
очередь было вызвано слишком ранним пуском pvfs2 (ещё не готовой к
некоторым видам нагрузок), сделанным по просьбе пользователя.
Сейчас проблема устранена, задачи пошли.
Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20131026/62b57b04/attachment.sig>
More information about the hpc
mailing list