[mephi-hpc] проблема с задачей
Andrew A. Savchenko
bircoph at ut.mephi.ru
Sun Sep 22 00:27:23 MSK 2013
On Sat, 21 Sep 2013 21:32:48 +0400 Andrew A. Savchenko wrote:
> On Sat, 21 Sep 2013 15:38:26 +0300 Alexandra Freidzon wrote:
> > Спасибо! я так и думала. Раньше эта проблема у меня тоже была (не на
> > кластере), просто я не знала, как она решается на кластере.
> >
> > А выполнение команды ipcrm --all=sem не повредит другим задачам? Если я
> > запускаю на нескольких нодах несколько однотипных задач, где в конце
> > скрипта вставлена эта команда, и одна из них завершилась раньше других --
> > она не срубит ли все остальные?
>
> Может повредить. Всё зависит от того, как и где запускаются задачи:
> если на узле, где выполняется завершающаяся задача, есть другие
> _Ваши_ задачи и они не умеют обрабатывать исчезновение семафоров, то
> будут проблемы. Других пользователей это не коснётся. Если Вы
> выполняете задачи на разных узлах, то проблем не будет; в частности,
> если ppn=8, то на одном узле сможет исполняться только одна задача,
> т.к. на узле ровно 8 ядер.
>
> Кроме того ipcrm нужно выполнять на всех узлах, где работает задача,
> а не там, где она была запущена. Это может быть проблемой, если Вы
> запускаете задачу через mpirun.
>
> Наиболее верным решением будет понять, почему приложение оставляет
> семафоры и устранить эту проблему. Наиболее вероятно, что они
> остаются при преждевременном завершении задачи на узле, например,
> из-за получения сигнала, внутренней ошибки или каких-либо особых
> краевых условий. Для устранения проблемы я бы предложил добавить
> обработчик сигналов/выхода из программы, который будет проверять, все
> ли семафоры удалены и удалять их по необходимости.
>
> Со своей стороны я попробую реализовать сборщик мусора для
> неиспользуемых семафоров на узлах: если будут обнаружены семафоры
> пользователя, задачи которого на данный момент не выполняются на
> узле, они будут удаляться — это не идеальный вариант, но хоть что-то.
Сделал сборщик неиспользуемых семафоров.
Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 836 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20130922/b1544e01/attachment.sig>
More information about the hpc
mailing list