[mephi-hpc] Отключение электро6ания

anikeev anikeev at ut.mephi.ru
Thu Mar 3 18:17:33 MSK 2016


Уважаемы пользователи!

В связи с заменой вышедшего из строя оборудования необходимо произвести
ремонтные работы, требующие временного отключения основного хранилища
/mnt/pool. Работы будут проводиться в среду, 9-го марта, в первой
половине дня. Прошу Вас не ставить в очередь продолжительные задачи,
использующиеubfwbyn /mnt/pool.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.

On Thu, 2016-02-25 at 13:56 +0300, anikeev wrote:
> On Wed, 2016-02-24 at 20:14 +0300, Andrew A. Savchenko wrote:
> Уважаемые пользователи!
> 
> Доступ к файловым хранилищам восстановлен. Пропускная способность
> сети
> остаётся пониженной и не может быть исправлена без замены/ремонта
> оборудования. Система работает стабильно. Расчеты можно проводить при
> условии стабильного электропитания. К сожалению, сроки проведения
> строительных работ я назвать не могу. Плановых отключений не
> предвидится.
> 
> > On Wed, 24 Feb 2016 15:12:00 +0300 anikeev wrote:
> > > Сегодня в 12:08 произошло аварийное отключение электропитания, по
> > > причине которого были остановлены все запущенные задачи. По
> > > состоянию
> > > на 13:04 все имеющиеся вычислительные ресурсы введены обратно в
> > > строй в
> > > полном объёме. Повреждений файлов, вызванных аварийно
> > > перезагрузкой,
> > > обнаружить не удалось.
> > 
> > К сожалению, сбой повторился. Доблестные рабочие умудрились
> > перебить не только основной кабель питания корпуса (что было в 12
> > часов дня), но и резервный, что произошло в 16 часов). На данный
> > момент энергоснабжение восстановлено по аварийной схеме.
> > 
> > Однако, второй сбой не прошёл бесследно — часть коммутационного
> > оборудования кластера Basov вышла из строя. На данный момент
> > недоступно основное дисковое хранилище (всё, что на /mnt/pool/*).
> > Данные при этом должны быть в сохранности, нарушен именно доступ
> > к системе хранения данных.
> > 
> > Данные домашних директорий /home доступны, все вычислительные узлы
> > работают. Максимальная пропускная способность узлов Basov уменьшена
> > в два раза (5 Gbit/s на узел при загрузке всех узлов), на
> > unicluster
> > — без изменений (1 Gbit/s на узел).
> > 
> > Мы проводим работы по восстановлению доступа к /pool. Пока что
> > сложно сказать, сколько это займёт времени. Ориентировочно мы
> > планируем обеспечить к пятнице доступ к /pool хотя бы по аварийной
> > (т.е. более медленной) схеме.
> 
> С уважением,
> инженер отдела UNIX-технологий,
> Аникеев Артём.
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20160303/c316fb54/attachment.sig>


More information about the hpc mailing list