[mephi-hpc] Fwd: error cherenkov

Phil Korneev korneev at theor.mephi.ru
Wed Dec 21 19:11:01 MSK 2016


Ok, я понял, спасибо большое!

У меня не получается запустить задачу, не могу понять причину. Похоже, что
не виден входной файл. В скрипте указано следующее:

NUMPROC=160

INPUT= TADEK.in

cd /mnt/pool/3/phkorneev/TADEK_2p/


mpirun -np $NUMPROC ./ipicls2d_mb/exe/ipicls2d < ./$INPUT >> outout.info


Вот файл с ошибкой:


/var/spool/pbs/mom_priv/jobs/13422.master.SC: line 22: TADEK.in: command
not found

At line 459 of file input.f (unit = 5, file = 'stdin')

Fortran runtime error: End of file

[n219:15316] [[41479,0],0]-[[41479,1],0] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n211:24383] [[41479,0],6]-[[41479,1],96] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n209:04112] [[41479,0],8]-[[41479,1],128] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n213:18193] [[41479,0],4]-[[41479,1],64] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n214:06576] [[41479,0],3]-[[41479,1],48] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n208:17251] [[41479,0],9]-[[41479,1],144] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

[n217:29233] [[41479,0],1]-[[41479,1],16] mca_oob_tcp_msg_recv: readv
failed: Connection reset by peer (104)

--------------------------------------------------------------------------

mpirun has exited due to process rank 0 with PID 15317 on

node n219 exiting improperly. There are two reasons this could occur:


1. this process did not call "init" before exiting, but others in

the job did. This can cause a job to hang indefinitely while it waits

for all processes to call "init". By rule, if one process calls "init",

then ALL processes must call "init" prior to termination.


2. this process called "init", but exited without calling "finalize".

By rule, all processes that call "init" MUST call "finalize" prior to

exiting or it will be considered an "abnormal termination"


This may have caused other processes in the application to be

terminated by signals sent by mpirun (as reported here).

--------------------------------------------------------------------------

[n215:06781] [[41479,0],2]->[[41479,1],32] mca_oob_tcp_msg_send_handler:
writev failed: Connection reset by peer (104) [sd = 58]



Это я неправильно что-то делаю или сбой?


С Уважением.

ф.к.

2016-12-21 18:59 GMT+03:00 Andrew A. Savchenko <bircoph at ut.mephi.ru>:

> On Wed, 21 Dec 2016 18:29:20 +0300 Phil Korneev wrote:
> > Спасибо!
> > Но только проблема осталась:
> >
> > Unable to copy file /var/spool/pbs/spool/13418.master.OU to
> > /mnt/pool/1/phkorneev/TADEK_2+/TADEK_2+.o13418
> > *** error from copy
> > /bin/cp: cannot create regular file
> > '/mnt/pool/1/phkorneev/TADEK_2+/TADEK_2+.o13418': No such file or
> directory
> > *** end error output
> > Output retained on that host in: /var/spool/pbs/undelivered/
> 13418.master.OU
> >
> > Unable to copy file /var/spool/pbs/spool/13418.master.ER to
> > /mnt/pool/1/phkorneev/TADEK_2+/TADEK_2+.e13418
> > *** error from copy
> > /bin/cp: cannot create regular file
> > '/mnt/pool/1/phkorneev/TADEK_2+/TADEK_2+.e13418': No such file or
> directory
> > *** end error output
> > Output retained on that host in: /var/spool/pbs/undelivered/134
> 18.master.ER
>
> Это другая проблема: pool 1 и 2 доступны только на голове
> cherenkov, на вычислительных узлах cherenkov их нет, поскольку это
> полки basov и соединение между basov и cherenkov гораздо медленнее
> соединения между узлами cherenkov. Если мы разрешим использование
> pool/{1,2} на вычислительных узлах cherenkov, интерконнект между
> cherenkov и basov станет узким местом и задачи будут работать
> очень медленно.
>
> Точно так же на basov: там родные 1 и 2, а 3 и 4 доступны только на
> голове (для облегчения переноса данных между кластерами).
>
> Вся эта информация была указана ещё весной этого года в
> информационной рассылке по поводу запуска cherenkov.
>
> Best regards,
> Andrew Savchenko
>
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
>


-- 
All the best ,
Philipp K
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20161221/ccc71799/attachment-0002.html>


More information about the hpc mailing list