[mephi-hpc] и снова нет доступа к rhic

Боговалов Сергей Владимирович SVBogovalov at mephi.ru
Thu Nov 23 16:26:09 MSK 2017


Высылаю.
________________________________________
От: hpc <hpc-bounces at lists.mephi.ru> от имени anikeev <anikeev at ut.mephi.ru>
Отправлено: 23 ноября 2017 г. 13:59
Кому: NRNU MEPhI HPC discussion list
Тема: Re: [mephi-hpc] и снова нет доступа к  rhic

On Thu, 2017-11-23 at 13:13 +0300, Alexandra Freidzon wrote:
> Да, а перезагружать будете только головной узел или счетные тоже?

Только головной. Задачи останутся. Очередь останется. Подвиснут на
время перезагрузки только задачи, работающие с /home/cherenkov. Потом
они продолжать работать.

> 23 ноября 2017 г., 12:42 пользователь Alexandra Freidzon
> <freidzon.sanya at gmail.com> написал:
> > Спасибо, буду готова к перезагрузке.
> >
> > 23 ноября 2017 г., 11:26 пользователь anikeev <anikeev at ut.mephi.ru>
> > написал:
> > > On Wed, 2017-11-22 at 22:35 +0300, Grigory Nigmatkulov wrote:
> > > > Здравствуйте,
> > >
> > > Добрый день!
> > >
> > > Проблема в забитом /proc/mounts (некорректная работа автоматики
> > > во
> > > время ремонтных работ). Исправить быстро можно перезагрузкой
> > > головного
> > > узла cherenkov. Без перезагрузки исправление займёт много
> > > времени. На
> > > запущенные на вычислительных узлах задачи влияния быть не должно.
> > > Перезагрузка будет произведена сегодня в 18:00 (по окончании
> > > рабочего
> > > дня).
> > >
> > > Извиняюсь, MC после работ не проверил. На время выполнения
> > > вычислительных задач влияния нет.
> > >
> > > > Я видел (на других системах) подобное поведение, когда
> > > > 3-е лицо "просаживает" I/O.
> > > >
> > > > Мои 2 цента.
> > > >
> > > > Успехов,
> > > > ГАН
> > > >
> > > >
> > > >
> > > > 2017-11-22 21:58 GMT+03:00 Alexandra Freidzon <freidzon.sanya at g
> > > > mail.c
> > > > om>:
> > > > > Проблема все-таки не в midnight commander-е. Если просто
> > > > > зайти на
> > > > > Черенкова в /mnt/pool/3 или 4, не запуская mc, и сказать,
> > > > > например,
> > > > > df
> > > > > -h, то терминал подвиснет на несколько минут. Согласитесь,
> > > > > это
> > > > > никуда
> > > > > не годится.
> > > > >
> > > > > 22 ноября 2017 г., 17:40 пользователь Alexandra Freidzon
> > > > > <freidzon.sanya at gmail.com> написал:
> > > > > > Задачи идут нормально (в т.ч. чтение-запись в nfs), но
> > > > > > невозможно
> > > > > > ничего делать с файлами, все ужасно тормозит (пользуюсь
> > > > > > midnight
> > > > > > commander-ом, раньше проблем не было)
> > > > > >
> > > > > > 22 ноября 2017 г., 17:35 пользователь anikeev <anikeev at ut.m
> > > > > > ephi.r
> > > > > > u> написал:
> > > > > > > On Wed, 2017-11-22 at 17:24 +0300, Alexandra Freidzon
> > > > > > > wrote:
> > > > > > > > Добрый день,
> > > > > > > >
> > > > > > > > то, что Черенков заработал -- это хорошо. Но тормоза в
> > > > > > > > /mnt/pool/3 и
> > > > > > > > 4
> > > > > > > > просто безбожные. А по команде dmesg | less вылезает
> > > > > > > > примерно
> > > > > > > > такой
> > > > > > > > ужас:
> > > > > > >
> > > > > > > Указанные ошибки относятся к 14 ноября. Используйте dmesg
> > > > > > > -H.
> > > > > > > Скорость
> > > > > > > работы хранилищ зависит от нагрузки на кластера. Сейчас
> > > > > > > они
> > > > > > > сильно
> > > > > > > нагружены:
> > > > > > >
> > > > > > > anikeev at master.basov ~ $ showq
> > > > > > >      5 Active Jobs     352 of  448 Processors Active
> > > > > > > (78.57%)
> > > > > > >                         14 of   14 Nodes
> > > > > > > Active      (100.00%)
> > > > > > >
> > > > > > > anikeev at master.cherenkov ~ $ showq
> > > > > > >     10 Active Jobs     512 of  576 Processors Active
> > > > > > > (88.89%)
> > > > > > >                         18 of   18 Nodes
> > > > > > > Active      (100.00%)
> > > > > > >
> > > > > > > Если производительность проваливается на конкретной
> > > > > > > задаче
> > > > > > > сильнее, чем
> > > > > > > на других, то сообщите детали - посмотрим.
> > > > > > >
> > > > > > > > [2558309.519504] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2558615.677485] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2558921.835238] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2559227.993087] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2559534.151014] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2559834.677126] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2560065.063502] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2560065.063773] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2560263.195780] nfs: server 192.168.137.252 not
> > > > > > > > responding,
> > > > > > > > timed
> > > > > > > > out
> > > > > > > > [2560309.287821] nfs: server 192.168.140.251 OK
> > > > > > > > [2570882.022947] nfs: server 192.168.150.2 not
> > > > > > > > responding,
> > > > > > > > timed out
> > > > > > > > [2621162.733726] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621166.741974] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621171.749697] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621176.757392] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621182.764574] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621186.772782] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621191.780521] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621197.787515] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621201.795920] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621206.803630] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621211.811286] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621216.818989] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621221.826723] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621227.833869] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621231.842167] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621236.849847] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621242.857010] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621246.865210] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621251.872960] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621256.880622] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621261.888341] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621266.896063] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621272.903409] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621277.919369] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621282.927086] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > > [2621287.934786] NFS: state manager: check lease failed
> > > > > > > > on
> > > > > > > > NFSv4
> > > > > > > > server 192.168.140.251 with error 13
> > > > > > > >
> > > > > > > > Работать ну ооооочень тяжело.
> > > > > > > >
> > > > > > > > 22 ноября 2017 г., 11:54 пользователь anikeev <anikeev@
> > > > > > > > ut.mep
> > > > > > > > hi.ru>
> > > > > > > > написал:
> > > > > > > > > On Tue, 2017-11-14 at 11:06 +0300, anikeev wrote:
> > > > > > > > > > On Sat, 2017-11-11 at 22:37 +0300, Alexandra
> > > > > > > > > > Freidzon
> > > > > > > > > > wrote:
> > > > > > > > > > > и все 4 pool-а тоже отвалились
> > > > > > > > >
> > > > > > > > > Добрый день!
> > > > > > > > >
> > > > > > > > > Хранилища /mnt/pool/3, /mnt/pool/4 и кластер Черенков
> > > > > > > > > официально
> > > > > > > > > возвращены в эксплуатацию. Причиной неполадок была
> > > > > > > > > ошибка в
> > > > > > > > > микрокоде
> > > > > > > > > процессора, проявившаяся на новом ядре ОС с низкой
> > > > > > > > > частотой
> > > > > > > > > повторения.
> > > > > > > > > Микрокод обновлён. Собранная после обновления
> > > > > > > > > статистика
> > > > > > > > > аномалий
> > > > > > > > > не
> > > > > > > > > выявила. Фактическая экспериментальная эксплуатация
> > > > > > > > > идёт с
> > > > > > > > > 14
> > > > > > > > > ноября.
> > > > > > > > >
> > > > > > > > > > Добрый день!
> > > > > > > > > >
> > > > > > > > > > Введена в пробную эксплуатацию новая схема
> > > > > > > > > > подключения
> > > > > > > > > > /mnt/pool/1 ,
> > > > > > > > > > /mnt/pool/2 и /mnt/pool/rhic к Университетскому
> > > > > > > > > > кластеру
> > > > > > > > > > и
> > > > > > > > > > кластеру
> > > > > > > > > > Басов. Работы на хранилищах /mnt/pool/3,
> > > > > > > > > > /mnt/pool/4 и
> > > > > > > > > > кластере
> > > > > > > > > > Черенков продолжаются. Новая информация будет
> > > > > > > > > > поступать
> > > > > > > > > > по мере
> > > > > > > > > > продвижения работ.
> > > > > > > > > >
> > > > > > > > > > > 11 ноя 2017 г. 13:38 пользователь "Олегъ"
> > > > > > > > > > > <oleg.golosov
> > > > > > > > > > > @gmail.c
> > > > > > > > > > > om>
> > > > > > > > > > > написал:
> > > > > > > > > > > > хоть к гадалке не ходи...
> > > > > > > > > > > > как выходные - отваливается rhic...
> > > > > > > > > > > > очень тяжело так работать...
> > > > > > > > > > > > _______________________________________________
> > > > > > > > > > > > hpc mailing list
> > > > > > > > > > > > hpc at lists.mephi.ru
> > > > > > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > > > > > > >
> > > > > > > > > > >
> > > > > > > > > > > _______________________________________________
> > > > > > > > > > > hpc mailing list
> > > > > > > > > > > hpc at lists.mephi.ru
> > > > > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > > > >
> > > > > > > > > --
> > > > > > > > > С уважением,
> > > > > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > > > > Аникеев Артём.
> > > > > > > > > Тел.: 8
> > > > > > > > > (495) 788-56-99, доб. 8998
> > > > > > > > > _______________________________________________
> > > > > > > > > hpc mailing list
> > > > > > > > > hpc at lists.mephi.ru
> > > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > > >
> > > > > > > > _______________________________________________
> > > > > > > > hpc mailing list
> > > > > > > > hpc at lists.mephi.ru
> > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > >
> > > > > > > --
> > > > > > > С уважением,
> > > > > > > инженер отдела Unix-технологий МИФИ,
> > > > > > > Аникеев Артём.
> > > > > > > Тел.: 8
> > > > > > > (495) 788-56-99, доб. 8998
> > > > > > > _______________________________________________
> > > > > > > hpc mailing list
> > > > > > > hpc at lists.mephi.ru
> > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > >
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > >
> > > --
> > > С уважением,
> > > инженер отдела Unix-технологий МИФИ,
> > > Аникеев Артём.
> > > Тел.: 8
> > > (495) 788-56-99, доб. 8998
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998
_______________________________________________
hpc mailing list
hpc at lists.mephi.ru
https://lists.mephi.ru/listinfo/hpc
-------------- next part --------------
A non-text attachment was scrubbed...
Name: Таблица проекта РНФ в 2017г_боговалов.xlsx
Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
Size: 12796 bytes
Desc: Таблица проекта РНФ в 2017г_боговалов.xlsx
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20171123/c7e50f7f/attachment-0001.xlsx>


More information about the hpc mailing list