[mephi-hpc] проблема с задачей

Alexandra Freidzon freidzon.sanya at gmail.com
Sat Sep 21 16:38:26 MSK 2013


Спасибо! я так и думала. Раньше эта проблема у меня тоже была (не на
кластере), просто я не знала, как она решается на кластере.

А выполнение команды ipcrm --all=sem не повредит другим задачам? Если я
запускаю на нескольких нодах несколько однотипных задач, где в конце
скрипта вставлена эта команда, и одна из них завершилась раньше других --
она не срубит ли все остальные?


21 сентября 2013 г., 7:25 пользователь Andrew A. Savchenko <
bircoph at ut.mephi.ru> написал:

> Здравствуйте,
>
> On Sat, 21 Sep 2013 04:37:21 +0300 Alexandra Freidzon wrote:
> > Добрый день,
> >
> > У меня вдруг начались проблемы с программой, к-рая успешно работала до
> > начала технических работ.
>
> Технические работы здесь ни при чём. Они начались почти на два дня
> позже сообщения в mail-листе, а Ваши проблемы начались раньше.
>
> > А теперь все время вылетает с сообщениями типа:
> >  DDI Process 4: semget return an error.
> >  semget errno=ENOSPC -- check system limit for sysv semaphores.
> > Запускается из ~/pool
> >
> > Что случилось?
>
> В сообщении об ошибке написано, что случилось: Вы исчерпали лимит
> семафоров. Диагностика с узлов это подтверждает, например, на n10:
>
> # ipcs -s | grep freidzon | wc -l
> 120
>
> Судя по датам последнего использования семафоров и датам запуска
> Ваших задач, Ваше приложение работает грязно и не убирает после себя
> семафоры, по крайней мере в ряде случаев.
>
> У нас есть механизмы очистки системы, но слишком свежие семафоры не
> удаляются, т.к. это может повредить работе задач, которые, возможно,
> их используют. Лимиты я увеличивать не буду, т.к. в таком случае
> некорректно работающее приложение приведёт к невозможности работы не
> только Ваших приложений, но и задач всех остальных пользователей.
>
> На данный момент я очистил пул семафоров на всех узлах. Рекомендую
> Вам и остальным пользователям Кинтеха добавить
> ipcrm --all=sem
> в конец своих скриптов выполнения задачи.
>
> К сожалению, данная проблема есть не только у Ваших задач, но у Вас
> она выражена наиболее сильно.
>
> Best regards,
> Andrew Savchenko
>
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20130921/44616ab5/attachment.html>


More information about the hpc mailing list