[mephi-hpc] Отключение электро6ания

Andrew A. Savchenko bircoph at ut.mephi.ru
Wed Feb 24 20:14:02 MSK 2016


Уважаемые пользователи!

On Wed, 24 Feb 2016 15:12:00 +0300 anikeev wrote:
> Сегодня в 12:08 произошло аварийное отключение электропитания, по
> причине которого были остановлены все запущенные задачи. По состоянию
> на 13:04 все имеющиеся вычислительные ресурсы введены обратно в строй в
> полном объёме. Повреждений файлов, вызванных аварийно перезагрузкой,
> обнаружить не удалось.

К сожалению, сбой повторился. Доблестные рабочие умудрились
перебить не только основной кабель питания корпуса (что было в 12
часов дня), но и резервный, что произошло в 16 часов). На данный
момент энергоснабжение восстановлено по аварийной схеме.

Однако, второй сбой не прошёл бесследно — часть коммутационного
оборудования кластера Basov вышла из строя. На данный момент
недоступно основное дисковое хранилище (всё, что на /mnt/pool/*).
Данные при этом должны быть в сохранности, нарушен именно доступ
к системе хранения данных.

Данные домашних директорий /home доступны, все вычислительные узлы
работают. Максимальная пропускная способность узлов Basov уменьшена
в два раза (5 Gbit/s на узел при загрузке всех узлов), на unicluster
— без изменений (1 Gbit/s на узел).

Мы проводим работы по восстановлению доступа к /pool. Пока что
сложно сказать, сколько это займёт времени. Ориентировочно мы
планируем обеспечить к пятнице доступ к /pool хотя бы по аварийной
(т.е. более медленной) схеме.

Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 819 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20160224/85a26e4e/attachment.sig>


More information about the hpc mailing list