[mephi-hpc] [!!Mass Mail] Проблема с логами
anikeev
anikeev at ut.mephi.ru
Wed Apr 22 14:37:21 MSK 2015
On Wed, 2015-04-22 at 11:23 +0300, Кумпан Александр wrote:
> Снова прошу прощения за забывчивость: ферма Basov
>
> On 04/22/2015 11:20 AM, Кумпан Александр wrote:
>
> > Уважаемая Администрация!
> >
> > Возникает непонятная проблема с возвратом логов после исполнения
> > задач, т.е. либо все файлы логов, либо часть из них возвращаются
> > пустыми.
> > Пример:
> > В директории /home/akumpan/pool/01Pa234 часть файлов с логами
> > имеют размер 0, чего не должно быть в принципе, т.к. при запуске
> > программы на исполнение используется команда time (сценарии запуска
> > лежат в той же директории и имеют постфикс .sh), которая просто
> > обязана дать какой-либо выход (по умолчанию, как я понимаю, в
> > error).
> > При этом логи, возвращенные непустыми, содержат тот "выхлоп",
> > который они и должны содержать, например, файлы 01Pa234_014.out и
> > 01Pa234_014.err.
> > Также привожу jobID задач из указанной директории (qstat):
> >
> > 37486.master 01Pa234_000 akumpan 39:27:27 R
> > long
> > 37487.master 01Pa234_001 akumpan 39:27:35 R
> > long
> > 37488.master 01Pa234_002 akumpan 20:54:37 C
> > long
> > 37489.master 01Pa234_003 akumpan 30:11:01 C
> > long
> > 37490.master 01Pa234_004 akumpan 29:52:17 C
> > long
> > 37491.master 01Pa234_005 akumpan 36:17:17 C
> > long
> > 37492.master 01Pa234_006 akumpan 28:11:40 C
> > long
> > 37493.master 01Pa234_007 akumpan 27:58:06 C
> > long
> > 37494.master 01Pa234_008 akumpan 39:27:33 R
> > long
> > 37495.master 01Pa234_009 akumpan 39:27:32 R
> > long
> > 37496.master 01Pa234_010 akumpan 29:03:27 C
> > long
> > 37497.master 01Pa234_011 akumpan 34:16:53 C
> > long
> > 37498.master 01Pa234_012 akumpan 34:08:28 C
> > long
> > 37499.master 01Pa234_013 akumpan 34:25:06 C
> > long
> > 37500.master 01Pa234_014 akumpan 38:54:22 C
> > long
> >
> > Кроме того, попытка воспроизвести указанную проблему привела к
> > еще более удручающим результатам: абсолютно все файлы логов
> > вернулись пустыми. Файлы запуска и результаты можно найти в
> > директории /home/akumpan/01test . Во избежание путаницы (было
> > предпринято несколько попыток воспроизведения с одинаковыми именами
> > задач), также приведу их ID:
> >
> > 37549.master 01test_000 akumpan 00:00:28 C
> > short
> > 37550.master 01test_001 akumpan 00:00:30 C
> > short
> > 37551.master 01test_002 akumpan 00:00:14 C
> > short
> > 37552.master 01test_003 akumpan 00:00:20 C
> > short
> > 37553.master 01test_004 akumpan 00:00:27 C
> > short
> > 37554.master 01test_005 akumpan 00:00:27 C
> > short
> > 37555.master 01test_006 akumpan 00:00:28 C
> > short
> > 37556.master 01test_007 akumpan 00:00:29 C
> > short
> > 37557.master 01test_008 akumpan 00:00:00 C
> > short
> > 37558.master 01test_009 akumpan 00:00:17 C short
> >
> > Не могли бы вы помочь разобраться с возникшей проблемой?
> > Замечена она была ранее, но, сколько ни старался, я так и не понял,
> > в чем может быть ошибка. Есть ли какие-нибудь ограничения на
> > количество запущенных задач?
> > --
> > С уважением,
> > Кумпан А.В.
> > Лаборатория 344
>
>
> --
> С уважением,
> Кумпан А.В.
> Лаборатория 344
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
Добрый день!
Указанные вами задачи завершились аварийно по причине исчерпания Вами
дисковой квоты на узле n121:
n121.basov ~ # quota -u akumpan
quota: Cannot open quotafile /tmp/aquota.user: No such file or directory
Disk quotas for user akumpan (uid 1046):
Filesystem blocks quota limit grace files quota limit
grace
/dev/root 6185860* 2000000 8000000 none 55 100000
500000
10.0.101.101:/home
93652 2000000 10000000 2246 100000
200000
Диск узла n121 забит недоставленными почтовыми сообщениями от Ваших
задач:
n121.basov ~ # find / -xdev -user akumpan
/var/spool/torque/mom_priv/jobs/37495.master.basov.hpc.mephi.ru.SC
/var/spool/torque/mom_priv/jobs/37494.master.basov.hpc.mephi.ru.SC
/var/spool/torque/mom_priv/jobs/37487.master.basov.hpc.mephi.ru.SC
/var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37207.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/36773.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/1075.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37200.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37205.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37208.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37209.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37202.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37198.master.basov.hpc.mephi.ru.ER
...
Суммарный объём писем превышает 6GB:
n121.basov ~ # du -d1 -h /var/spool/torque/undelivered
6.0G /var/spool/torque/undelivered
Опция менеджера ресурсов Torque по доставке уведомлений через почту не
рассчитана на пересылку крупных файлов. Более того, на наших кластерах
служба доставки почты была отключена по соображениям безопасности. Ваши
письма перемещены в директорию ~/pool/mails.
С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150422/3b04219c/attachment.sig>
More information about the hpc
mailing list