[mephi-hpc] Task'и получают статус C не выполняясь

Alexander Zaytsev zaitsev136 at gmail.com
Tue Nov 29 19:57:58 MSK 2016


Здравствуйте!

Столкнулся сегодня с проблемой и провел небольшой тест, чтобы
продемонстрировать ее:
Ставлю 30 одинаковых задач на basov. Из них около 20-25 выполняются
нормально (минуты за 2), остальные 5-10 задач не выполняясь сразу получают
статус Сompleted, даже не создав .o и .e лог-файлов.

qstat:
317400.master              task19.sh        zaitsev136      00:01:25 R short
317401.master              task20.sh        zaitsev136      00:01:24 R short
317402.master              task21.sh        zaitsev136      00:01:23 R short
317403.master              task22.sh        zaitsev136      00:01:59 C short
317404.master              task23.sh        zaitsev136      00:02:01 C short
317405.master              task24.sh        zaitsev136      00:01:20 R short
317406.master              task25.sh        zaitsev136      00:01:19 R short
317407.master              task26.sh        zaitsev136      00:00:00 C short
317408.master              task27.sh        zaitsev136      00:00:00 C short
317409.master              task28.sh        zaitsev136      00:00:00 C short
317410.master              task29.sh        zaitsev136      00:00:00 C short

ls ./*.sh.o*
./task0.sh.o317381   ./task15.sh.o317396  ./task21.sh.o317402
 ./task5.sh.o317386
./task1.sh.o317382   ./task16.sh.o317397  ./task22.sh.o317403
 ./task6.sh.o317387
./task10.sh.o317391  ./task17.sh.o317398  ./task23.sh.o317404
 ./task7.sh.o317388
./task11.sh.o317392  ./task18.sh.o317399  ./task24.sh.o317405
 ./task8.sh.o317389
./task12.sh.o317393  ./task19.sh.o317400  ./task25.sh.o317406
 ./task9.sh.o317390
./task13.sh.o317394  ./task2.sh.o317383   ./task3.sh.o317384
./task14.sh.o317395  ./task20.sh.o317401  ./task4.sh.o317385

Как видно, задачи task26 - task29 не выполнялись (нет лог файлов).
При этом все таски абсолютно одинаковые, см. папку
/home/zaitsev136/phenix/clusterTest/tasks (на басове)

Т.е. часть задач просто не выполняется, ничего не сообщив юзеру.

С уважением,
Александр Зайцев,
инженер каф. 67
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20161129/0b853d0b/attachment.html>


More information about the hpc mailing list