[mephi-hpc] и снова нет доступа к rhic

Wed Nov 22 22:35:01 MSK 2017

Здравствуйте,

Я видел (на других системах) подобное поведение, когда
3-е лицо "просаживает" I/O.

Мои 2 цента.

Успехов,
ГАН

2017-11-22 21:58 GMT+03:00 Alexandra Freidzon <freidzon.sanya at gmail.com>:
> Проблема все-таки не в midnight commander-е. Если просто зайти на
> Черенкова в /mnt/pool/3 или 4, не запуская mc, и сказать, например, df
> -h, то терминал подвиснет на несколько минут. Согласитесь, это никуда
> не годится.
>
> 22 ноября 2017 г., 17:40 пользователь Alexandra Freidzon
> <freidzon.sanya at gmail.com> написал:
>> Задачи идут нормально (в т.ч. чтение-запись в nfs), но невозможно
>> ничего делать с файлами, все ужасно тормозит (пользуюсь midnight
>> commander-ом, раньше проблем не было)
>>
>> 22 ноября 2017 г., 17:35 пользователь anikeev <anikeev at ut.mephi.ru> написал:
>>> On Wed, 2017-11-22 at 17:24 +0300, Alexandra Freidzon wrote:
>>>> Добрый день,
>>>>
>>>> то, что Черенков заработал -- это хорошо. Но тормоза в /mnt/pool/3 и
>>>> 4
>>>> просто безбожные. А по команде dmesg | less вылезает примерно такой
>>>> ужас:
>>>
>>> Указанные ошибки относятся к 14 ноября. Используйте dmesg -H. Скорость
>>> работы хранилищ зависит от нагрузки на кластера. Сейчас они сильно
>>> нагружены:
>>>
>>> anikeev at master.basov ~ $ showq
>>>      5 Active Jobs     352 of  448 Processors Active (78.57%)
>>>                         14 of   14 Nodes Active      (100.00%)
>>>
>>> anikeev at master.cherenkov ~ $ showq
>>>     10 Active Jobs     512 of  576 Processors Active (88.89%)
>>>                         18 of   18 Nodes Active      (100.00%)
>>>
>>> Если производительность проваливается на конкретной задаче сильнее, чем
>>> на других, то сообщите детали - посмотрим.
>>>
>>>> [2558309.519504] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2558615.677485] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2558921.835238] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2559227.993087] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2559534.151014] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2559834.677126] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2560065.063502] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2560065.063773] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2560263.195780] nfs: server 192.168.137.252 not responding, timed
>>>> out
>>>> [2560309.287821] nfs: server 192.168.140.251 OK
>>>> [2570882.022947] nfs: server 192.168.150.2 not responding, timed out
>>>> [2621162.733726] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621166.741974] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621171.749697] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621176.757392] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621182.764574] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621186.772782] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621191.780521] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621197.787515] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621201.795920] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621206.803630] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621211.811286] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621216.818989] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621221.826723] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621227.833869] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621231.842167] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621236.849847] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621242.857010] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621246.865210] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621251.872960] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621256.880622] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621261.888341] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621266.896063] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621272.903409] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621277.919369] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621282.927086] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>> [2621287.934786] NFS: state manager: check lease failed on NFSv4
>>>> server 192.168.140.251 with error 13
>>>>
>>>> Работать ну ооооочень тяжело.
>>>>
>>>> 22 ноября 2017 г., 11:54 пользователь anikeev <anikeev at ut.mephi.ru>
>>>> написал:
>>>> > On Tue, 2017-11-14 at 11:06 +0300, anikeev wrote:
>>>> > > On Sat, 2017-11-11 at 22:37 +0300, Alexandra Freidzon wrote:
>>>> > > > и все 4 pool-а тоже отвалились
>>>> >
>>>> > Добрый день!
>>>> >
>>>> > Хранилища /mnt/pool/3, /mnt/pool/4 и кластер Черенков официально
>>>> > возвращены в эксплуатацию. Причиной неполадок была ошибка в
>>>> > микрокоде
>>>> > процессора, проявившаяся на новом ядре ОС с низкой частотой
>>>> > повторения.
>>>> > Микрокод обновлён. Собранная после обновления статистика аномалий
>>>> > не
>>>> > выявила. Фактическая экспериментальная эксплуатация идёт с 14
>>>> > ноября.
>>>> >
>>>> > > Добрый день!
>>>> > >
>>>> > > Введена в пробную эксплуатацию новая схема подключения
>>>> > > /mnt/pool/1 ,
>>>> > > /mnt/pool/2 и /mnt/pool/rhic к Университетскому кластеру и
>>>> > > кластеру
>>>> > > Басов. Работы на хранилищах /mnt/pool/3, /mnt/pool/4 и кластере
>>>> > > Черенков продолжаются. Новая информация будет поступать по мере
>>>> > > продвижения работ.
>>>> > >
>>>> > > > 11 ноя 2017 г. 13:38 пользователь "Олегъ" <oleg.golosov at gmail.c
>>>> > > > om>
>>>> > > > написал:
>>>> > > > > хоть к гадалке не ходи...
>>>> > > > > как выходные - отваливается rhic...
>>>> > > > > очень тяжело так работать...
>>>> > > > > _______________________________________________
>>>> > > > > hpc mailing list
>>>> > > > > hpc at lists.mephi.ru
>>>> > > > > https://lists.mephi.ru/listinfo/hpc
>>>> > > > >
>>>> > > >
>>>> > > > _______________________________________________
>>>> > > > hpc mailing list
>>>> > > > hpc at lists.mephi.ru
>>>> > > > https://lists.mephi.ru/listinfo/hpc
>>>> >
>>>> > --
>>>> > С уважением,
>>>> > инженер отдела Unix-технологий МИФИ,
>>>> > Аникеев Артём.
>>>> > Тел.: 8
>>>> > (495) 788-56-99, доб. 8998
>>>> > _______________________________________________
>>>> > hpc mailing list
>>>> > hpc at lists.mephi.ru
>>>> > https://lists.mephi.ru/listinfo/hpc
>>>>
>>>> _______________________________________________
>>>> hpc mailing list
>>>> hpc at lists.mephi.ru
>>>> https://lists.mephi.ru/listinfo/hpc
>>> --
>>> С уважением,
>>> инженер отдела Unix-технологий МИФИ,
>>> Аникеев Артём.
>>> Тел.: 8
>>> (495) 788-56-99, доб. 8998
>>> _______________________________________________
>>> hpc mailing list
>>> hpc at lists.mephi.ru
>>> https://lists.mephi.ru/listinfo/hpc
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc