[mephi-hpc] [!!Mass Mail] Проблема с логами
Кумпан Александр
avkumpan at mephi.ru
Wed Apr 22 14:46:23 MSK 2015
Добрый день!
Понятно. Спасибо!
On 04/22/2015 02:37 PM, anikeev wrote:
> On Wed, 2015-04-22 at 11:23 +0300, Кумпан Александр wrote:
>> Снова прошу прощения за забывчивость: ферма Basov
>>
>> On 04/22/2015 11:20 AM, Кумпан Александр wrote:
>>
>>> Уважаемая Администрация!
>>>
>>> Возникает непонятная проблема с возвратом логов после исполнения
>>> задач, т.е. либо все файлы логов, либо часть из них возвращаются
>>> пустыми.
>>> Пример:
>>> В директории /home/akumpan/pool/01Pa234 часть файлов с логами
>>> имеют размер 0, чего не должно быть в принципе, т.к. при запуске
>>> программы на исполнение используется команда time (сценарии запуска
>>> лежат в той же директории и имеют постфикс .sh), которая просто
>>> обязана дать какой-либо выход (по умолчанию, как я понимаю, в
>>> error).
>>> При этом логи, возвращенные непустыми, содержат тот "выхлоп",
>>> который они и должны содержать, например, файлы 01Pa234_014.out и
>>> 01Pa234_014.err.
>>> Также привожу jobID задач из указанной директории (qstat):
>>>
>>> 37486.master 01Pa234_000 akumpan 39:27:27 R
>>> long
>>> 37487.master 01Pa234_001 akumpan 39:27:35 R
>>> long
>>> 37488.master 01Pa234_002 akumpan 20:54:37 C
>>> long
>>> 37489.master 01Pa234_003 akumpan 30:11:01 C
>>> long
>>> 37490.master 01Pa234_004 akumpan 29:52:17 C
>>> long
>>> 37491.master 01Pa234_005 akumpan 36:17:17 C
>>> long
>>> 37492.master 01Pa234_006 akumpan 28:11:40 C
>>> long
>>> 37493.master 01Pa234_007 akumpan 27:58:06 C
>>> long
>>> 37494.master 01Pa234_008 akumpan 39:27:33 R
>>> long
>>> 37495.master 01Pa234_009 akumpan 39:27:32 R
>>> long
>>> 37496.master 01Pa234_010 akumpan 29:03:27 C
>>> long
>>> 37497.master 01Pa234_011 akumpan 34:16:53 C
>>> long
>>> 37498.master 01Pa234_012 akumpan 34:08:28 C
>>> long
>>> 37499.master 01Pa234_013 akumpan 34:25:06 C
>>> long
>>> 37500.master 01Pa234_014 akumpan 38:54:22 C
>>> long
>>>
>>> Кроме того, попытка воспроизвести указанную проблему привела к
>>> еще более удручающим результатам: абсолютно все файлы логов
>>> вернулись пустыми. Файлы запуска и результаты можно найти в
>>> директории /home/akumpan/01test . Во избежание путаницы (было
>>> предпринято несколько попыток воспроизведения с одинаковыми именами
>>> задач), также приведу их ID:
>>>
>>> 37549.master 01test_000 akumpan 00:00:28 C
>>> short
>>> 37550.master 01test_001 akumpan 00:00:30 C
>>> short
>>> 37551.master 01test_002 akumpan 00:00:14 C
>>> short
>>> 37552.master 01test_003 akumpan 00:00:20 C
>>> short
>>> 37553.master 01test_004 akumpan 00:00:27 C
>>> short
>>> 37554.master 01test_005 akumpan 00:00:27 C
>>> short
>>> 37555.master 01test_006 akumpan 00:00:28 C
>>> short
>>> 37556.master 01test_007 akumpan 00:00:29 C
>>> short
>>> 37557.master 01test_008 akumpan 00:00:00 C
>>> short
>>> 37558.master 01test_009 akumpan 00:00:17 C short
>>>
>>> Не могли бы вы помочь разобраться с возникшей проблемой?
>>> Замечена она была ранее, но, сколько ни старался, я так и не понял,
>>> в чем может быть ошибка. Есть ли какие-нибудь ограничения на
>>> количество запущенных задач?
>>> --
>>> С уважением,
>>> Кумпан А.В.
>>> Лаборатория 344
>>
>> --
>> С уважением,
>> Кумпан А.В.
>> Лаборатория 344
>> _______________________________________________
>> hpc mailing list
>> hpc at lists.ut.mephi.ru
>> http://lists.ut.mephi.ru/listinfo/hpc
> Добрый день!
>
> Указанные вами задачи завершились аварийно по причине исчерпания Вами
> дисковой квоты на узле n121:
> n121.basov ~ # quota -u akumpan
> quota: Cannot open quotafile /tmp/aquota.user: No such file or directory
> Disk quotas for user akumpan (uid 1046):
> Filesystem blocks quota limit grace files quota limit
> grace
> /dev/root 6185860* 2000000 8000000 none 55 100000
> 500000
> 10.0.101.101:/home
> 93652 2000000 10000000 2246 100000
> 200000
>
> Диск узла n121 забит недоставленными почтовыми сообщениями от Ваших
> задач:
>
> n121.basov ~ # find / -xdev -user akumpan
> /var/spool/torque/mom_priv/jobs/37495.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/mom_priv/jobs/37494.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/mom_priv/jobs/37487.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37207.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/36773.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/1075.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37200.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37205.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37208.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37209.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37202.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37198.master.basov.hpc.mephi.ru.ER
> ...
>
> Суммарный объём писем превышает 6GB:
> n121.basov ~ # du -d1 -h /var/spool/torque/undelivered
> 6.0G /var/spool/torque/undelivered
>
> Опция менеджера ресурсов Torque по доставке уведомлений через почту не
> рассчитана на пересылку крупных файлов. Более того, на наших кластерах
> служба доставки почты была отключена по соображениям безопасности. Ваши
> письма перемещены в директорию ~/pool/mails.
>
> С уважением,
> инженер отдела UNIX-технологий,
> Аникеев Артём.
>
--
С уважением,
Кумпан А.В.
Лаборатория 344
More information about the hpc
mailing list