[mephi-hpc] Ошибка записи в /pool

anikeev anikeev at ut.mephi.ru
Wed Nov 1 12:35:55 MSK 2017


On Tue, 2017-10-31 at 17:23 +0300, Dmitry Zhuk wrote:

Добрый день!

> Странно, у меня никаких ошибок с неправильным адресом файла нет.
> Я вот так запускаю:
> ssh cherenkov
> cd ~/pool/1/zr_roll16_1_33
> source /mnt/pool/1/dimazhuk/DAMASK/DAMASK_env.sh
> /mnt/pool/1/dimazhuk/DAMASK/bin/DAMASK_spectral --geom fourh.geom --
> load rolling3x.load
> 
> Ошибка все та же, без изменений.

Проблема оказалась во взаимодействии менеджеров блокировок различных
версий NFS. Я поменял настройки, Ваша задача сейчас запускается.

Опцию "noac" я не использовал, поскольку она вызовет значительное
падение производительности. Вероятность возникновени
я ошибок некогерентности кэша в разумно написанных приложениях мала.
При самостоятельном написании приложений с параллельным доступом к
одному файлу стоит учитывать кэширование атрибутов файла на узлах.

> 2017-10-31 16:59 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > On Tue, 2017-10-31 at 16:24 +0300, Dmitry Zhuk wrote:
> > > Запись шла в /pool/1/zr_roll16_1_33
> > > Запустить программу c cherenkov можно из этой же папки так:
> > >
> > > source /mnt/pool/1/dimazhuk/DAMASK/DAMASK_env.sh
> > > /mnt/pool/1/dimazhuk/DAMASK/bin/DAMASK_spectral --geom fourh.geom
> > --
> > > load rolling3x.load
> > 
> > Я обнаружил на /mnt/pool/1 некорректно обработанную блокировку
> > файла.
> > Обычно такое происходит при некорректном завершении работы
> > приложения,
> > либо при наличии ошибки в логике работы с блокировками фалов.
> > 
> > Я сбросил блокировки rpcbind вручную, сейчас всё должно работать.
> > Проверить не могу - в Вашем примере где-то сломаны пути:
> > 
> > dimazhuk at master.cherenkov ~ $
> > /mnt/pool/1/dimazhuk/DAMASK/bin/DAMASK_spectral --geom fourh.geom
> > --
> > load rolling3x.load
> > ...
> >  + could not open file:                                   +
> >  + /home/dimazhuk/fourh.geom                              +
> > ...
> > dimazhuk at master.cherenkov ~ $ ls -lah /home/dimazhuk/fourh.geom
> > ls: cannot access /home/dimazhuk/fourh.geom: No such file or
> > directory
> > 
> > Что касается самого сообщения об ошибке, на /mnt/pool/1
> > используется
> > как раз NFSv3. Опцию 'noac' использовать невозможно, поскольку она
> > приведёт к значительному падению производительности.
> > 
> > Напишите, пожалуйста, в случае повторения ошибки. Снять блокировку
> > вручную может только системный администратор.
> > 
> > > 2017-10-31 16:04 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > > > On Tue, 2017-10-31 at 15:36 +0300, Dmitry Zhuk wrote:
> > > > > Добрый день!
> > > >
> > > > Здравствуйте!
> > > >
> > > > > Перестала работать программа при записи в pool.
> > > >
> > > > Подскажите, на какой из /pool/{1..4} шла запись и откуда
> > > > запускалась
> > > > программа? Что это за программа? Как запустить аналогичную
> > задачу,
> > > > не
> > > > повредив Ваши данные?
> > > >
> > > > > При попытке записи выдает
> > > > >
> > > > > File locking failed in ADIOI_Set_lock(fd 19,cmd
> > F_SETLKW/7,type
> > > > > F_WRLCK/1,whence 0) with return value FFFFFFFF and errno 5.
> > > > > - If the file system is NFS, you need to use NFS version 3,
> > > > ensure
> > > > > that the lockd daemon is running on all the machines, and
> > mount
> > > > the
> > > > > directory with the 'noac' option (no attribute caching).
> > > > > - If the file system is LUSTRE, ensure that the directory is
> > > > mounted
> > > > > with the 'flock' option.
> > > > > ADIOI_Set_lock:: Input/output error
> > > > > ADIOI_Set_lock:offset 0, length 8
> > > > >
> > > > > В /home все записывается нормально.
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > > --
> > > > С уважением,
> > > > инженер отдела Unix-технологий МИФИ,
> > > > Аникеев Артём.
> > > > Тел.: 8
> > > > (495) 788-56-99, доб. 8998
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > >
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > --
> > С уважением,
> > инженер отдела Unix-технологий МИФИ,
> > Аникеев Артём.
> > Тел.: 8
> > (495) 788-56-99, доб. 8998
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> > 
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list