[mephi-hpc] Отключение электро6ания
anikeev
anikeev at ut.mephi.ru
Wed Mar 9 12:16:55 MSK 2016
Уважаемые пользователи!
Сегодня была завершена плановая замена вышедшего из строя оборудования.
Как было объявлено ранее, в промежутке времени от 11:50 до 12:07 было
недоступно дисковое хранилище /mnt/pool. Пользователям рекомендуется
проверить запущенные задачи.
В результате проведённых работ производительность кластера basov должна
восстановиться в полном объёме.
С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
On Thu, 2016-03-03 at 18:17 +0300, anikeev wrote:
> Уважаемы пользователи!
>
> В связи с заменой вышедшего из строя оборудования необходимо
> произвести
> ремонтные работы, требующие временного отключения основного хранилища
> /mnt/pool. Работы будут проводиться в среду, 9-го марта, в первой
> половине дня. Прошу Вас не ставить в очередь продолжительные задачи,
> использующиеubfwbyn /mnt/pool.
>
> С уважением,
> инженер отдела UNIX-технологий,
> Аникеев Артём.
>
> On Thu, 2016-02-25 at 13:56 +0300, anikeev wrote:
> > On Wed, 2016-02-24 at 20:14 +0300, Andrew A. Savchenko wrote:
> > Уважаемые пользователи!
> >
> > Доступ к файловым хранилищам восстановлен. Пропускная способность
> > сети
> > остаётся пониженной и не может быть исправлена без замены/ремонта
> > оборудования. Система работает стабильно. Расчеты можно проводить
> > при
> > условии стабильного электропитания. К сожалению, сроки проведения
> > строительных работ я назвать не могу. Плановых отключений не
> > предвидится.
> >
> > > On Wed, 24 Feb 2016 15:12:00 +0300 anikeev wrote:
> > > > Сегодня в 12:08 произошло аварийное отключение электропитания,
> > > > по
> > > > причине которого были остановлены все запущенные задачи. По
> > > > состоянию
> > > > на 13:04 все имеющиеся вычислительные ресурсы введены обратно в
> > > > строй в
> > > > полном объёме. Повреждений файлов, вызванных аварийно
> > > > перезагрузкой,
> > > > обнаружить не удалось.
> > >
> > > К сожалению, сбой повторился. Доблестные рабочие умудрились
> > > перебить не только основной кабель питания корпуса (что было в 12
> > > часов дня), но и резервный, что произошло в 16 часов). На данный
> > > момент энергоснабжение восстановлено по аварийной схеме.
> > >
> > > Однако, второй сбой не прошёл бесследно — часть коммутационного
> > > оборудования кластера Basov вышла из строя. На данный момент
> > > недоступно основное дисковое хранилище (всё, что на /mnt/pool/*).
> > > Данные при этом должны быть в сохранности, нарушен именно доступ
> > > к системе хранения данных.
> > >
> > > Данные домашних директорий /home доступны, все вычислительные
> > > узлы
> > > работают. Максимальная пропускная способность узлов Basov
> > > уменьшена
> > > в два раза (5 Gbit/s на узел при загрузке всех узлов), на
> > > unicluster
> > > — без изменений (1 Gbit/s на узел).
> > >
> > > Мы проводим работы по восстановлению доступа к /pool. Пока что
> > > сложно сказать, сколько это займёт времени. Ориентировочно мы
> > > планируем обеспечить к пятнице доступ к /pool хотя бы по
> > > аварийной
> > > (т.е. более медленной) схеме.
> >
> > С уважением,
> > инженер отдела UNIX-технологий,
> > Аникеев Артём.
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.ut.mephi.ru
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20160309/bdc7029b/attachment.sig>
More information about the hpc
mailing list