[mephi-hpc] Зависание задач на кластере Basov

anikeev anikeev at ut.mephi.ru
Mon Feb 12 12:04:58 MSK 2018


On Mon, 2018-02-12 at 11:26 +0300, anikeev wrote:
> On Mon, 2018-02-12 at 10:37 +0300, Alexey Bogdanov wrote:
> > Здравствуйте!
> 
> Добрый день!
> 
> > На кластере Basov 10.02.2018 зависли задачи (Job ID) 382071-
> > 382188, 
> > причем некоторые из них (например, 382071-382080) на самом деле 
> > посчитались. Снять задачи не получается. Помогите, пожалуйста,
> > решить 
> > проблему.
> 
> Исправлено. Зависание узлов было вызвано перезагрузкой головного
> узла. 
> Проводится дальнейшее расследование причин инцидента.

Проблема обнаружена в сломанных зависимостях nfs, netmount и iscsi.
Зависимости исправлены. После тестовой перезагрузки головного узла
кластер самостоятельно восстановил работоспособность.

> Приносим извинения за неудобства.
> 
> > Всего доброго,
> > Алексей Богданов
> > 
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list