[mephi-hpc] Зависание задач на кластере Basov
anikeev
anikeev at ut.mephi.ru
Mon Feb 12 12:04:58 MSK 2018
On Mon, 2018-02-12 at 11:26 +0300, anikeev wrote:
> On Mon, 2018-02-12 at 10:37 +0300, Alexey Bogdanov wrote:
> > Здравствуйте!
>
> Добрый день!
>
> > На кластере Basov 10.02.2018 зависли задачи (Job ID) 382071-
> > 382188,
> > причем некоторые из них (например, 382071-382080) на самом деле
> > посчитались. Снять задачи не получается. Помогите, пожалуйста,
> > решить
> > проблему.
>
> Исправлено. Зависание узлов было вызвано перезагрузкой головного
> узла.
> Проводится дальнейшее расследование причин инцидента.
Проблема обнаружена в сломанных зависимостях nfs, netmount и iscsi.
Зависимости исправлены. После тестовой перезагрузки головного узла
кластер самостоятельно восстановил работоспособность.
> Приносим извинения за неудобства.
>
> > Всего доброго,
> > Алексей Богданов
> >
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
More information about the hpc
mailing list