[mephi-hpc] проблема с задачей
Andrew A. Savchenko
bircoph at ut.mephi.ru
Sat Sep 21 21:32:48 MSK 2013
On Sat, 21 Sep 2013 15:38:26 +0300 Alexandra Freidzon wrote:
> Спасибо! я так и думала. Раньше эта проблема у меня тоже была (не на
> кластере), просто я не знала, как она решается на кластере.
>
> А выполнение команды ipcrm --all=sem не повредит другим задачам? Если я
> запускаю на нескольких нодах несколько однотипных задач, где в конце
> скрипта вставлена эта команда, и одна из них завершилась раньше других --
> она не срубит ли все остальные?
Может повредить. Всё зависит от того, как и где запускаются задачи:
если на узле, где выполняется завершающаяся задача, есть другие
_Ваши_ задачи и они не умеют обрабатывать исчезновение семафоров, то
будут проблемы. Других пользователей это не коснётся. Если Вы
выполняете задачи на разных узлах, то проблем не будет; в частности,
если ppn=8, то на одном узле сможет исполняться только одна задача,
т.к. на узле ровно 8 ядер.
Кроме того ipcrm нужно выполнять на всех узлах, где работает задача,
а не там, где она была запущена. Это может быть проблемой, если Вы
запускаете задачу через mpirun.
Наиболее верным решением будет понять, почему приложение оставляет
семафоры и устранить эту проблему. Наиболее вероятно, что они
остаются при преждевременном завершении задачи на узле, например,
из-за получения сигнала, внутренней ошибки или каких-либо особых
краевых условий. Для устранения проблемы я бы предложил добавить
обработчик сигналов/выхода из программы, который будет проверять, все
ли семафоры удалены и удалять их по необходимости.
Со своей стороны я попробую реализовать сборщик мусора для
неиспользуемых семафоров на узлах: если будут обнаружены семафоры
пользователя, задачи которого на данный момент не выполняются на
узле, они будут удаляться — это не идеальный вариант, но хоть что-то.
Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20130921/da9d5f74/attachment.sig>
More information about the hpc
mailing list