[mephi-hpc] Fortran runtime error: File already opened in another unit
anikeev
anikeev at ut.mephi.ru
Wed Apr 19 12:48:55 MSK 2017
On Tue, 2017-04-18 at 20:34 +0300, Phil Korneev wrote:
> Добрый день,
> скажите, а где находятся файлы mtnsa_2D3.e24735 и mtnsa_2D3.o24735?
> Я не вижу их в директории где запускалась программа. Мне кажется, что
> это произошло по той же причине, по которой я получаю ошибку "file is
> already opened...".
> к
Здравствуйте!
Файлы здесь:
phkorneev at master.cherenkov /mnt/pool/3/phkorneev/magn_2D_TNSA_3 $ ls
-lah /mnt/pool/3/phkorneev/magn_2D_TNSA_3/mtnsa_2D3.e24735
-rw------- 1 phkorneev users 14K Apr 18 14:03
/mnt/pool/3/phkorneev/magn_2D_TNSA_3/mtnsa_2D3.e24735
phkorneev at master.cherenkov /mnt/pool/3/phkorneev/magn_2D_TNSA_3 $ ls
-lah /mnt/pool/3/phkorneev/magn_2D_TNSA_3/mtnsa_2D3.o24735
-rw------- 1 phkorneev users 329 Apr 17 14:59
/mnt/pool/3/phkorneev/magn_2D_TNSA_3/mtnsa_2D3.o24735
> 2017-04-18 19:30 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > On Mon, 2017-04-17 at 19:30 +0300, Phil Korneev wrote:
> > > Добрый день,
> >
> > Здравствуйте!
> >
> > > программа не выдаёт данных. Мне кажется, она просто висит в
> > > планировщике.
> > > Файл
> > энергии /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/etc/energy_00008
> > > должен обновляться, за время работы, по крайней мере, несколько
> > раз.
> > > Кроме того, файл /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/timer
> > после
> > > успешного запуска должен замениться
> > > на /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/timer_0.
> > > С уважением,
> > > к.
> >
> > Программа завершила работу без ошибок. Файл outout.info обновился.
> >
> > Необходимо понять, как можно воспроизвести ошибку. Для ускорения
> > перебора вариантов можно сократить число итераций в стартовых
> > файлах.
> >
> > Весьма вероятно, что ошибка была связана с одновременным запуском
> > задач, работающих одновременно с одним фалом. По окончании второго
> > процесса первый стал работать корректно.
> >
> > Я бы рекомендовал поискать в исходном коде открытие файлов без
> > проверок. Речь может идти не только о файлах пользователя, но и о
> > служебных файлах, которые могут использоваться для межпроцессного
> > взаимодействия.
> >
> > > 2017-04-17 19:04 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > > > On Mon, 2017-04-17 at 14:26 +0300, anikeev wrote:
> > > > > On Mon, 2017-04-17 at 13:04 +0300, Phil Korneev wrote:
> > > > > > Добрый день, ошибка повторилась:
> > > > > > At line 254 of file em2d.f (unit = 10, file = '')
> > > > > > Fortran runtime error: File already opened in another unit
> > > >
> > > > От Вашего пользователя программа работает без ошибок длительное
> > > > время.
> > > >
> > > > Job ID Name User Time
> > Use
> > > > S
> > > > Queue
> > > > ------------------------- ---------------- --------------- ----
> > ----
> > > > -
> > > > -----
> > > >
> > 24735.master mtnsa_2D3 phkorneev 469:45:
> > > > 2 R
> > > > medium
> > > >
> > > > Пока диагностировать нечего. Жду проявления ошибки.
> > > >
> > > > > У меня возникают множественные SegFault. Я создам ещё одну
> > копию
> > > > и
> > > > > запущу задачу от Вашего пользователя, чтобы избавиться от
> > > > побочных
> > > > > проблем.
> > > > >
> > > > > > Для диагностики, чтобы не повредить данные, можно либо
> > > > скопировать
> > > > > > директорию /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/ в новую
> > > > > > (необходимо
> > > > > > скопировать "restart", "ipicls" , файл "timer" и скрипт
> > > > > > "task_basov")
> > > > > > и запускать оттуда, или запускать из текущей директории, но
> > > > файл
> > > > > > "timer" при начале счёта заменяется на "timer_0", поэтому
> > для
> > > > > > сохранения данных желательно следить за ним и при
> > необходимости
> > > > > > перед
> > > > > > запуском переименовывать в "timer".
> > > > > > Проще всего сделать резервное копирование директории, мне
> > > > кажется,
> > > > > > а
> > > > > > когда проблема будет решена, удалить все новые данные.
> > > > > > Я уже всё сохранил на всякий случай в
> > > > > > "/mnt/pool/3/phkorneev/magn_2D_TNSA_3a_cc"
> > > > > > с уважением,
> > > > > > к.
> > > > > >
> > > > > >
> > > > > > 2017-04-17 12:06 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > > > > > > On Sat, 2017-04-15 at 12:37 +0300, Phil Korneev wrote:
> > > > > > > > Добрый день,
> > > > > > > > подскажите пожалуйста, что это значит (ниже -
> > содержание
> > > > error
> > > > > > > > -
> > > > > > > > файла) и как с этим бороться?
> > > > > > > > Задача на cherenkov, эта ошибка возникает всегда
> > сегодня с
> > > > > > > > утра,
> > > > > > > > пробовал запустить около 10 раз. Вчера задача
> > считалась.
> > > > > > >
> > > > > > > Добрый день!
> > > > > > >
> > > > > > > На кластере произошёл инцидент с переполнением хранилища.
> > > > > > > Попробуйте,
> > > > > > > пожалуйста, запустить задачу ещё раз. В случае повторения
> > > > ошибки,
> > > > > > > сообщите, как мне запустить задачу для дальнейшей
> > > > диагностики,
> > > > > > > чтобы не
> > > > > > > повредить Ваши данные.
> > > > > > >
> > > > > > > > Спасибо!
> > > > > > > > к
> > > > > > > >
> > > > > > >
> > > > > > >
> > > >
> > _________________________________________________________________
> > > > > > > __
> > > > > > > __
> > > > > > > > __
> > > > > > > > At line 254 of file em2d.f (unit = 10, file = 'H����*')
> > > > > > > > Fortran runtime error: File already opened in another
> > unit
> > > > > > > > -----------------------------------------------------
> > ----
> > > > ------
> > > > > > >
> > > > > > > ----
> > > > > > > > -------
> > > > > > > > mpirun has exited due to process rank 0 with PID 15890
> > on
> > > > > > > > node n217 exiting improperly. There are two reasons
> > this
> > > > could
> > > > > > >
> > > > > > > occur:
> > > > > > > >
> > > > > > > > 1. this process did not call "init" before exiting, but
> > > > others
> > > > > > > > in
> > > > > > > > the job did. This can cause a job to hang indefinitely
> > > > while it
> > > > > > >
> > > > > > > waits
> > > > > > > > for all processes to call "init". By rule, if one
> > process
> > > > calls
> > > > > > > > "init",
> > > > > > > > then ALL processes must call "init" prior to
> > termination.
> > > > > > > >
> > > > > > > > 2. this process called "init", but exited without
> > calling
> > > > > > >
> > > > > > > "finalize".
> > > > > > > > By rule, all processes that call "init" MUST call
> > > > "finalize"
> > > > > > >
> > > > > > > prior to
> > > > > > > > exiting or it will be considered an "abnormal
> > termination"
> > > > > > > >
> > > > > > > > This may have caused other processes in the application
> > to
> > > > be
> > > > > > > > terminated by signals sent by mpirun (as reported
> > here).
> > > > > > > > -----------------------------------------------------
> > ----
> > > > ------
> > > > > > >
> > > > > > > ----
> > > > > > > > -------
> > > > > > > >
> > > > > > >
> > > > > > >
> > > >
> > _________________________________________________________________
> > > > > > > __
> > > > > > > __
> > > > > > > > __
> > > > > > > >
> > > > > > > > --
> > > > > > > > All the best ,
> > > > > > > > Philipp K
> > > > > > > > _______________________________________________
> > > > > > > > hpc mailing list
> > > > > > > > hpc at lists.mephi.ru
> > > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > >
> > > > > > > --
> > > > > > > С уважением,
> > > > > > > аспирант кафедры 4 МИФИ,
> > > > > > > инженер отдела Unix-технологий,
> > > > > > > Аникеев Артём.
> > > > > > > Тел.: 8 (495) 788-56-99, доб. 8998
> > > > > > > _______________________________________________
> > > > > > > hpc mailing list
> > > > > > > hpc at lists.mephi.ru
> > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > > >
> > > > > >
> > > > > >
> > > > > >
> > > > > > --
> > > > > > All the best ,
> > > > > > Philipp K
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > >
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > > --
> > > > С уважением,
> > > > аспирант кафедры 4 МИФИ,
> > > > инженер отдела Unix-технологий,
> > > > Аникеев Артём.
> > > > Тел.: 8 (495) 788-56-99, доб. 8998
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > >
> > >
> > >
> > > --
> > > All the best ,
> > > Philipp K
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > --
> > С уважением,
> > аспирант кафедры 4 МИФИ,
> > инженер отдела Unix-технологий,
> > Аникеев Артём.
> > Тел.: 8 (495) 788-56-99, доб. 8998
> >
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> >
>
>
>
> --
> All the best ,
> Philipp K
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list