[mephi-hpc] Task'и получают статус C не выполняясь

Alexander Zaytsev zaitsev136 at gmail.com
Thu Dec 1 14:57:56 MSK 2016


Большое спасибо!

С уважением,
Александр Зайцев.

1 декабря 2016 г., 12:51 пользователь anikeev <anikeev at ut.mephi.ru> написал:

> On Tue, 2016-11-29 at 19:57 +0300, Alexander Zaytsev wrote:
> > Здравствуйте!
>
> Добрый день!
>
> Проблема была в разрыве сетевых соединений на узле n113. Все задачи,
> попадавшие на этот узел, не могли сохранять файлы на сетевые носители.
>
> Проблема исправлена.
>
> Приносим извинения за неудобства.
>
> > Столкнулся сегодня с проблемой и провел небольшой тест, чтобы
> > продемонстрировать ее:
> > Ставлю 30 одинаковых задач на basov. Из них около 20-25 выполняются
> > нормально (минуты за 2), остальные 5-10 задач не выполняясь сразу
> > получают статус Сompleted, даже не создав .o и .e лог-файлов.
> >
> > qstat:
> > 317400.master              task19.sh        zaitsev136      00:01:25
> > R short
> > 317401.master              task20.sh        zaitsev136      00:01:24
> > R short
> > 317402.master              task21.sh        zaitsev136      00:01:23
> > R short
> > 317403.master              task22.sh        zaitsev136      00:01:59
> > C short
> > 317404.master              task23.sh        zaitsev136      00:02:01
> > C short
> > 317405.master              task24.sh        zaitsev136      00:01:20
> > R short
> > 317406.master              task25.sh        zaitsev136      00:01:19
> > R short
> > 317407.master              task26.sh        zaitsev136      00:00:00
> > C short
> > 317408.master              task27.sh        zaitsev136      00:00:00
> > C short
> > 317409.master              task28.sh        zaitsev136      00:00:00
> > C short
> > 317410.master              task29.sh        zaitsev136      00:00:00
> > C short
> >
> > ls ./*.sh.o*
> > ./task0.sh.o317381   ./task15.sh.o317396  ./task21.sh.o317402
> >  ./task5.sh.o317386
> > ./task1.sh.o317382   ./task16.sh.o317397  ./task22.sh.o317403
> >  ./task6.sh.o317387
> > ./task10.sh.o317391  ./task17.sh.o317398  ./task23.sh.o317404
> >  ./task7.sh.o317388
> > ./task11.sh.o317392  ./task18.sh.o317399  ./task24.sh.o317405
> >  ./task8.sh.o317389
> > ./task12.sh.o317393  ./task19.sh.o317400  ./task25.sh.o317406
> >  ./task9.sh.o317390
> > ./task13.sh.o317394  ./task2.sh.o317383   ./task3.sh.o317384
> > ./task14.sh.o317395  ./task20.sh.o317401  ./task4.sh.o317385
> >
> > Как видно, задачи task26 - task29 не выполнялись (нет лог файлов).
> > При этом все таски абсолютно одинаковые, см. папку
> > /home/zaitsev136/phenix/clusterTest/tasks (на басове)
> >
> > Т.е. часть задач просто не выполняется, ничего не сообщив юзеру.
> >
> > С уважением,
> > Александр Зайцев,
> > инженер каф. 67
> --
> С уважением,
> аспирант кафедры 4 МИФИ,
> инженер отдела Unix-технологий,
> Аникеев Артём.
> Тел.: 8 (495) 788-56-99, доб. 8998
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20161201/ae6a4866/attachment.html>


More information about the hpc mailing list