[mephi-hpc] Task'и получают статус C не выполняясь
anikeev
anikeev at ut.mephi.ru
Thu Dec 1 14:51:27 MSK 2016
On Tue, 2016-11-29 at 19:57 +0300, Alexander Zaytsev wrote:
> Здравствуйте!
Добрый день!
Проблема была в разрыве сетевых соединений на узле n113. Все задачи,
попадавшие на этот узел, не могли сохранять файлы на сетевые носители.
Проблема исправлена.
Приносим извинения за неудобства.
> Столкнулся сегодня с проблемой и провел небольшой тест, чтобы
> продемонстрировать ее:
> Ставлю 30 одинаковых задач на basov. Из них около 20-25 выполняются
> нормально (минуты за 2), остальные 5-10 задач не выполняясь сразу
> получают статус Сompleted, даже не создав .o и .e лог-файлов.
>
> qstat:
> 317400.master task19.sh zaitsev136 00:01:25
> R short
> 317401.master task20.sh zaitsev136 00:01:24
> R short
> 317402.master task21.sh zaitsev136 00:01:23
> R short
> 317403.master task22.sh zaitsev136 00:01:59
> C short
> 317404.master task23.sh zaitsev136 00:02:01
> C short
> 317405.master task24.sh zaitsev136 00:01:20
> R short
> 317406.master task25.sh zaitsev136 00:01:19
> R short
> 317407.master task26.sh zaitsev136 00:00:00
> C short
> 317408.master task27.sh zaitsev136 00:00:00
> C short
> 317409.master task28.sh zaitsev136 00:00:00
> C short
> 317410.master task29.sh zaitsev136 00:00:00
> C short
>
> ls ./*.sh.o*
> ./task0.sh.o317381 ./task15.sh.o317396 ./task21.sh.o317402
> ./task5.sh.o317386
> ./task1.sh.o317382 ./task16.sh.o317397 ./task22.sh.o317403
> ./task6.sh.o317387
> ./task10.sh.o317391 ./task17.sh.o317398 ./task23.sh.o317404
> ./task7.sh.o317388
> ./task11.sh.o317392 ./task18.sh.o317399 ./task24.sh.o317405
> ./task8.sh.o317389
> ./task12.sh.o317393 ./task19.sh.o317400 ./task25.sh.o317406
> ./task9.sh.o317390
> ./task13.sh.o317394 ./task2.sh.o317383 ./task3.sh.o317384
> ./task14.sh.o317395 ./task20.sh.o317401 ./task4.sh.o317385
>
> Как видно, задачи task26 - task29 не выполнялись (нет лог файлов).
> При этом все таски абсолютно одинаковые, см. папку
> /home/zaitsev136/phenix/clusterTest/tasks (на басове)
>
> Т.е. часть задач просто не выполняется, ничего не сообщив юзеру.
>
> С уважением,
> Александр Зайцев,
> инженер каф. 67
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998
More information about the hpc
mailing list