[mephi-hpc] Проблема с логами
Кумпан Александр
avkumpan at mephi.ru
Wed Apr 22 11:20:54 MSK 2015
Уважаемая Администрация!
Возникает непонятная проблема с возвратом логов после исполнения
задач, т.е. либо все файлы логов, либо часть из них возвращаются пустыми.
Пример:
В директории /home/akumpan/pool/01Pa234 часть файлов с логами имеют
размер 0, чего не должно быть в принципе, т.к. при запуске программы на
исполнение используется команда time (сценарии запуска лежат в той же
директории и имеют постфикс .sh), которая просто обязана дать какой-либо
выход (по умолчанию, как я понимаю, в error).
При этом логи, возвращенные непустыми, содержат тот "выхлоп",
который они и должны содержать, например, файлы 01Pa234_014.out и
01Pa234_014.err.
Также привожу jobID задач из указанной директории (qstat):
37486.master 01Pa234_000 akumpan 39:27:27 R long
37487.master 01Pa234_001 akumpan 39:27:35 R long
37488.master 01Pa234_002 akumpan 20:54:37 C long
37489.master 01Pa234_003 akumpan 30:11:01 C long
37490.master 01Pa234_004 akumpan 29:52:17 C long
37491.master 01Pa234_005 akumpan 36:17:17 C long
37492.master 01Pa234_006 akumpan 28:11:40 C long
37493.master 01Pa234_007 akumpan 27:58:06 C long
37494.master 01Pa234_008 akumpan 39:27:33 R long
37495.master 01Pa234_009 akumpan 39:27:32 R long
37496.master 01Pa234_010 akumpan 29:03:27 C long
37497.master 01Pa234_011 akumpan 34:16:53 C long
37498.master 01Pa234_012 akumpan 34:08:28 C long
37499.master 01Pa234_013 akumpan 34:25:06 C long
37500.master 01Pa234_014 akumpan 38:54:22 C long
Кроме того, попытка воспроизвести указанную проблему привела к еще
более удручающим результатам: абсолютно все файлы логов вернулись
пустыми. Файлы запуска и результаты можно найти в директории
/home/akumpan/01test . Во избежание путаницы (было предпринято несколько
попыток воспроизведения с одинаковыми именами задач), также приведу их ID:
37549.master 01test_000 akumpan 00:00:28 C short
37550.master 01test_001 akumpan 00:00:30 C short
37551.master 01test_002 akumpan 00:00:14 C short
37552.master 01test_003 akumpan 00:00:20 C short
37553.master 01test_004 akumpan 00:00:27 C short
37554.master 01test_005 akumpan 00:00:27 C short
37555.master 01test_006 akumpan 00:00:28 C short
37556.master 01test_007 akumpan 00:00:29 C short
37557.master 01test_008 akumpan 00:00:00 C short
37558.master 01test_009 akumpan 00:00:17 C short
Не могли бы вы помочь разобраться с возникшей проблемой? Замечена
она была ранее, но, сколько ни старался, я так и не понял, в чем может
быть ошибка. Есть ли какие-нибудь ограничения на количество запущенных
задач?
--
С уважением,
Кумпан А.В.
Лаборатория 344
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150422/31867695/attachment.html>
More information about the hpc
mailing list