[mephi-hpc] Отключение электро6ания

anikeev anikeev at ut.mephi.ru
Thu Feb 25 13:56:52 MSK 2016


On Wed, 2016-02-24 at 20:14 +0300, Andrew A. Savchenko wrote:
Уважаемые пользователи!

Доступ к файловым хранилищам восстановлен. Пропускная способность сети
остаётся пониженной и не может быть исправлена без замены/ремонта
оборудования. Система работает стабильно. Расчеты можно проводить при
условии стабильного электропитания. К сожалению, сроки проведения
строительных работ я назвать не могу. Плановых отключений не
предвидится.

> On Wed, 24 Feb 2016 15:12:00 +0300 anikeev wrote:
> > Сегодня в 12:08 произошло аварийное отключение электропитания, по
> > причине которого были остановлены все запущенные задачи. По
> > состоянию
> > на 13:04 все имеющиеся вычислительные ресурсы введены обратно в
> > строй в
> > полном объёме. Повреждений файлов, вызванных аварийно
> > перезагрузкой,
> > обнаружить не удалось.
> 
> К сожалению, сбой повторился. Доблестные рабочие умудрились
> перебить не только основной кабель питания корпуса (что было в 12
> часов дня), но и резервный, что произошло в 16 часов). На данный
> момент энергоснабжение восстановлено по аварийной схеме.
> 
> Однако, второй сбой не прошёл бесследно — часть коммутационного
> оборудования кластера Basov вышла из строя. На данный момент
> недоступно основное дисковое хранилище (всё, что на /mnt/pool/*).
> Данные при этом должны быть в сохранности, нарушен именно доступ
> к системе хранения данных.
> 
> Данные домашних директорий /home доступны, все вычислительные узлы
> работают. Максимальная пропускная способность узлов Basov уменьшена
> в два раза (5 Gbit/s на узел при загрузке всех узлов), на unicluster
> — без изменений (1 Gbit/s на узел).
> 
> Мы проводим работы по восстановлению доступа к /pool. Пока что
> сложно сказать, сколько это займёт времени. Ориентировочно мы
> планируем обеспечить к пятнице доступ к /pool хотя бы по аварийной
> (т.е. более медленной) схеме.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20160225/27b95844/attachment.sig>


More information about the hpc mailing list