[mephi-hpc] Отключение электро6ания
Andrew A. Savchenko
bircoph at ut.mephi.ru
Wed Feb 24 20:14:02 MSK 2016
Уважаемые пользователи!
On Wed, 24 Feb 2016 15:12:00 +0300 anikeev wrote:
> Сегодня в 12:08 произошло аварийное отключение электропитания, по
> причине которого были остановлены все запущенные задачи. По состоянию
> на 13:04 все имеющиеся вычислительные ресурсы введены обратно в строй в
> полном объёме. Повреждений файлов, вызванных аварийно перезагрузкой,
> обнаружить не удалось.
К сожалению, сбой повторился. Доблестные рабочие умудрились
перебить не только основной кабель питания корпуса (что было в 12
часов дня), но и резервный, что произошло в 16 часов). На данный
момент энергоснабжение восстановлено по аварийной схеме.
Однако, второй сбой не прошёл бесследно — часть коммутационного
оборудования кластера Basov вышла из строя. На данный момент
недоступно основное дисковое хранилище (всё, что на /mnt/pool/*).
Данные при этом должны быть в сохранности, нарушен именно доступ
к системе хранения данных.
Данные домашних директорий /home доступны, все вычислительные узлы
работают. Максимальная пропускная способность узлов Basov уменьшена
в два раза (5 Gbit/s на узел при загрузке всех узлов), на unicluster
— без изменений (1 Gbit/s на узел).
Мы проводим работы по восстановлению доступа к /pool. Пока что
сложно сказать, сколько это займёт времени. Ориентировочно мы
планируем обеспечить к пятнице доступ к /pool хотя бы по аварийной
(т.е. более медленной) схеме.
Best regards,
Andrew Savchenko
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 819 bytes
Desc: not available
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20160224/85a26e4e/attachment.sig>
More information about the hpc
mailing list