[mephi-hpc] проблема с задачей

Andrew A. Savchenko bircoph at ut.mephi.ru
Sat Sep 21 21:32:48 MSK 2013


On Sat, 21 Sep 2013 15:38:26 +0300 Alexandra Freidzon wrote:
> Спасибо! я так и думала. Раньше эта проблема у меня тоже была (не на
> кластере), просто я не знала, как она решается на кластере.
> 
> А выполнение команды ipcrm --all=sem не повредит другим задачам? Если я
> запускаю на нескольких нодах несколько однотипных задач, где в конце
> скрипта вставлена эта команда, и одна из них завершилась раньше других --
> она не срубит ли все остальные?

Может повредить. Всё зависит от того, как и где запускаются задачи:
если на узле, где выполняется завершающаяся задача, есть другие
_Ваши_ задачи и они не умеют обрабатывать исчезновение семафоров, то
будут проблемы. Других пользователей это не коснётся. Если Вы
выполняете задачи на разных узлах, то проблем не будет; в частности,
если ppn=8, то на одном узле сможет исполняться только одна задача,
т.к. на узле ровно 8 ядер.

Кроме того ipcrm нужно выполнять на всех узлах, где работает задача,
а не там, где она была запущена. Это может быть проблемой, если Вы
запускаете задачу через mpirun.

Наиболее верным решением будет понять, почему приложение оставляет
семафоры и устранить эту проблему. Наиболее вероятно, что они
остаются при преждевременном завершении задачи на узле, например,
из-за получения сигнала, внутренней ошибки или каких-либо особых
краевых условий. Для устранения проблемы я бы предложил добавить
обработчик сигналов/выхода из программы, который будет проверять, все
ли семафоры удалены и удалять их по необходимости.

Со своей стороны я попробую реализовать сборщик мусора для
неиспользуемых семафоров на узлах: если будут обнаружены семафоры
пользователя, задачи которого на данный момент не выполняются на
узле, они будут удаляться — это не идеальный вариант, но хоть что-то.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20130921/da9d5f74/attachment.sig>


More information about the hpc mailing list