[mephi-hpc] Fortran runtime error: File already opened in another unit
Phil Korneev
korneev at theor.mephi.ru
Tue Apr 18 20:34:15 MSK 2017
Добрый день,
скажите, а где находятся файлы mtnsa_2D3.e24735 и mtnsa_2D3.o24735?
Я не вижу их в директории где запускалась программа. Мне кажется, что это
произошло по той же причине, по которой я получаю ошибку "file is already
opened...".
к
2017-04-18 19:30 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> On Mon, 2017-04-17 at 19:30 +0300, Phil Korneev wrote:
> > Добрый день,
>
> Здравствуйте!
>
> > программа не выдаёт данных. Мне кажется, она просто висит в
> > планировщике.
> > Файл энергии /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/etc/energy_00008
> > должен обновляться, за время работы, по крайней мере, несколько раз.
> > Кроме того, файл /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/timer после
> > успешного запуска должен замениться
> > на /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/timer_0.
> > С уважением,
> > к.
>
> Программа завершила работу без ошибок. Файл outout.info обновился.
>
> Необходимо понять, как можно воспроизвести ошибку. Для ускорения
> перебора вариантов можно сократить число итераций в стартовых файлах.
>
> Весьма вероятно, что ошибка была связана с одновременным запуском
> задач, работающих одновременно с одним фалом. По окончании второго
> процесса первый стал работать корректно.
>
> Я бы рекомендовал поискать в исходном коде открытие файлов без
> проверок. Речь может идти не только о файлах пользователя, но и о
> служебных файлах, которые могут использоваться для межпроцессного
> взаимодействия.
>
> > 2017-04-17 19:04 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > > On Mon, 2017-04-17 at 14:26 +0300, anikeev wrote:
> > > > On Mon, 2017-04-17 at 13:04 +0300, Phil Korneev wrote:
> > > > > Добрый день, ошибка повторилась:
> > > > > At line 254 of file em2d.f (unit = 10, file = '')
> > > > > Fortran runtime error: File already opened in another unit
> > >
> > > От Вашего пользователя программа работает без ошибок длительное
> > > время.
> > >
> > > Job ID Name User Time Use
> > > S
> > > Queue
> > > ------------------------- ---------------- --------------- --------
> > > -
> > > -----
> > > 24735.master mtnsa_2D3 phkorneev 469:45:
> > > 2 R
> > > medium
> > >
> > > Пока диагностировать нечего. Жду проявления ошибки.
> > >
> > > > У меня возникают множественные SegFault. Я создам ещё одну копию
> > > и
> > > > запущу задачу от Вашего пользователя, чтобы избавиться от
> > > побочных
> > > > проблем.
> > > >
> > > > > Для диагностики, чтобы не повредить данные, можно либо
> > > скопировать
> > > > > директорию /mnt/pool/3/phkorneev/magn_2D_TNSA_3a/ в новую
> > > > > (необходимо
> > > > > скопировать "restart", "ipicls" , файл "timer" и скрипт
> > > > > "task_basov")
> > > > > и запускать оттуда, или запускать из текущей директории, но
> > > файл
> > > > > "timer" при начале счёта заменяется на "timer_0", поэтому для
> > > > > сохранения данных желательно следить за ним и при необходимости
> > > > > перед
> > > > > запуском переименовывать в "timer".
> > > > > Проще всего сделать резервное копирование директории, мне
> > > кажется,
> > > > > а
> > > > > когда проблема будет решена, удалить все новые данные.
> > > > > Я уже всё сохранил на всякий случай в
> > > > > "/mnt/pool/3/phkorneev/magn_2D_TNSA_3a_cc"
> > > > > с уважением,
> > > > > к.
> > > > >
> > > > >
> > > > > 2017-04-17 12:06 GMT+03:00 anikeev <anikeev at ut.mephi.ru>:
> > > > > > On Sat, 2017-04-15 at 12:37 +0300, Phil Korneev wrote:
> > > > > > > Добрый день,
> > > > > > > подскажите пожалуйста, что это значит (ниже - содержание
> > > error
> > > > > > > -
> > > > > > > файла) и как с этим бороться?
> > > > > > > Задача на cherenkov, эта ошибка возникает всегда сегодня с
> > > > > > > утра,
> > > > > > > пробовал запустить около 10 раз. Вчера задача считалась.
> > > > > >
> > > > > > Добрый день!
> > > > > >
> > > > > > На кластере произошёл инцидент с переполнением хранилища.
> > > > > > Попробуйте,
> > > > > > пожалуйста, запустить задачу ещё раз. В случае повторения
> > > ошибки,
> > > > > > сообщите, как мне запустить задачу для дальнейшей
> > > диагностики,
> > > > > > чтобы не
> > > > > > повредить Ваши данные.
> > > > > >
> > > > > > > Спасибо!
> > > > > > > к
> > > > > > >
> > > > > >
> > > > > >
> > > _________________________________________________________________
> > > > > > __
> > > > > > __
> > > > > > > __
> > > > > > > At line 254 of file em2d.f (unit = 10, file = 'H����*')
> > > > > > > Fortran runtime error: File already opened in another unit
> > > > > > > ---------------------------------------------------------
> > > ------
> > > > > >
> > > > > > ----
> > > > > > > -------
> > > > > > > mpirun has exited due to process rank 0 with PID 15890 on
> > > > > > > node n217 exiting improperly. There are two reasons this
> > > could
> > > > > >
> > > > > > occur:
> > > > > > >
> > > > > > > 1. this process did not call "init" before exiting, but
> > > others
> > > > > > > in
> > > > > > > the job did. This can cause a job to hang indefinitely
> > > while it
> > > > > >
> > > > > > waits
> > > > > > > for all processes to call "init". By rule, if one process
> > > calls
> > > > > > > "init",
> > > > > > > then ALL processes must call "init" prior to termination.
> > > > > > >
> > > > > > > 2. this process called "init", but exited without calling
> > > > > >
> > > > > > "finalize".
> > > > > > > By rule, all processes that call "init" MUST call
> > > "finalize"
> > > > > >
> > > > > > prior to
> > > > > > > exiting or it will be considered an "abnormal termination"
> > > > > > >
> > > > > > > This may have caused other processes in the application to
> > > be
> > > > > > > terminated by signals sent by mpirun (as reported here).
> > > > > > > ---------------------------------------------------------
> > > ------
> > > > > >
> > > > > > ----
> > > > > > > -------
> > > > > > >
> > > > > >
> > > > > >
> > > _________________________________________________________________
> > > > > > __
> > > > > > __
> > > > > > > __
> > > > > > >
> > > > > > > --
> > > > > > > All the best ,
> > > > > > > Philipp K
> > > > > > > _______________________________________________
> > > > > > > hpc mailing list
> > > > > > > hpc at lists.mephi.ru
> > > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > >
> > > > > > --
> > > > > > С уважением,
> > > > > > аспирант кафедры 4 МИФИ,
> > > > > > инженер отдела Unix-технологий,
> > > > > > Аникеев Артём.
> > > > > > Тел.: 8 (495) 788-56-99, доб. 8998
> > > > > > _______________________________________________
> > > > > > hpc mailing list
> > > > > > hpc at lists.mephi.ru
> > > > > > https://lists.mephi.ru/listinfo/hpc
> > > > > >
> > > > >
> > > > >
> > > > >
> > > > > --
> > > > > All the best ,
> > > > > Philipp K
> > > > > _______________________________________________
> > > > > hpc mailing list
> > > > > hpc at lists.mephi.ru
> > > > > https://lists.mephi.ru/listinfo/hpc
> > > >
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru
> > > > https://lists.mephi.ru/listinfo/hpc
> > > --
> > > С уважением,
> > > аспирант кафедры 4 МИФИ,
> > > инженер отдела Unix-технологий,
> > > Аникеев Артём.
> > > Тел.: 8 (495) 788-56-99, доб. 8998
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > >
> >
> >
> >
> > --
> > All the best ,
> > Philipp K
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
>
--
All the best ,
Philipp K
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20170418/81b80680/attachment-0001.html>
More information about the hpc
mailing list