[mephi-hpc] [!!Mass Mail] Проблема с логами

Кумпан Александр avkumpan at mephi.ru
Wed Apr 22 14:46:23 MSK 2015


Добрый день!

Понятно. Спасибо!

On 04/22/2015 02:37 PM, anikeev wrote:
> On Wed, 2015-04-22 at 11:23 +0300, Кумпан Александр wrote:
>> Снова прошу прощения за забывчивость: ферма Basov
>>
>> On 04/22/2015 11:20 AM, Кумпан Александр wrote:
>>
>>> Уважаемая Администрация!
>>>
>>>      Возникает непонятная проблема с возвратом логов после исполнения
>>> задач, т.е. либо все файлы логов, либо часть из них возвращаются
>>> пустыми.
>>>      Пример:
>>>      В директории /home/akumpan/pool/01Pa234 часть файлов с логами
>>> имеют размер 0, чего не должно быть в принципе, т.к. при запуске
>>> программы на исполнение используется команда time (сценарии запуска
>>> лежат в той же директории и имеют постфикс .sh), которая просто
>>> обязана дать какой-либо выход (по умолчанию, как я понимаю, в
>>> error).
>>>      При этом логи, возвращенные непустыми, содержат тот "выхлоп",
>>> который они и должны содержать, например, файлы  01Pa234_014.out и
>>> 01Pa234_014.err.
>>>      Также привожу jobID задач из указанной директории (qstat):
>>>
>>> 37486.master    01Pa234_000      akumpan         39:27:27 R
>>> long
>>> 37487.master    01Pa234_001      akumpan         39:27:35 R
>>> long
>>> 37488.master    01Pa234_002      akumpan         20:54:37 C
>>> long
>>> 37489.master    01Pa234_003      akumpan         30:11:01 C
>>> long
>>> 37490.master    01Pa234_004      akumpan         29:52:17 C
>>> long
>>> 37491.master    01Pa234_005      akumpan         36:17:17 C
>>> long
>>> 37492.master    01Pa234_006      akumpan         28:11:40 C
>>> long
>>> 37493.master    01Pa234_007      akumpan         27:58:06 C
>>> long
>>> 37494.master    01Pa234_008      akumpan         39:27:33 R
>>> long
>>> 37495.master    01Pa234_009      akumpan         39:27:32 R
>>> long
>>> 37496.master    01Pa234_010      akumpan         29:03:27 C
>>> long
>>> 37497.master    01Pa234_011      akumpan         34:16:53 C
>>> long
>>> 37498.master    01Pa234_012      akumpan         34:08:28 C
>>> long
>>> 37499.master    01Pa234_013      akumpan         34:25:06 C
>>> long
>>> 37500.master    01Pa234_014      akumpan         38:54:22 C
>>> long
>>>
>>>      Кроме того, попытка воспроизвести указанную проблему привела к
>>> еще более удручающим результатам: абсолютно все файлы логов
>>> вернулись пустыми. Файлы запуска и результаты можно найти в
>>> директории /home/akumpan/01test . Во избежание путаницы (было
>>> предпринято несколько попыток воспроизведения с одинаковыми именами
>>> задач), также приведу их ID:
>>>
>>> 37549.master     01test_000       akumpan        00:00:28 C
>>> short
>>> 37550.master     01test_001       akumpan        00:00:30 C
>>> short
>>> 37551.master     01test_002       akumpan        00:00:14 C
>>> short
>>> 37552.master     01test_003       akumpan        00:00:20 C
>>> short
>>> 37553.master     01test_004       akumpan        00:00:27 C
>>> short
>>> 37554.master     01test_005       akumpan        00:00:27 C
>>> short
>>> 37555.master     01test_006       akumpan        00:00:28 C
>>> short
>>> 37556.master     01test_007       akumpan        00:00:29 C
>>> short
>>> 37557.master     01test_008       akumpan        00:00:00 C
>>> short
>>> 37558.master     01test_009       akumpan        00:00:17 C short
>>>
>>>      Не могли бы вы помочь разобраться с возникшей проблемой?
>>> Замечена она была ранее, но, сколько ни старался, я так и не понял,
>>> в чем может быть ошибка. Есть ли какие-нибудь ограничения на
>>> количество запущенных задач?
>>> -- 
>>> С уважением,
>>> Кумпан А.В.
>>> Лаборатория 344
>>
>> -- 
>> С уважением,
>> Кумпан А.В.
>> Лаборатория 344
>> _______________________________________________
>> hpc mailing list
>> hpc at lists.ut.mephi.ru
>> http://lists.ut.mephi.ru/listinfo/hpc
> Добрый день!
>
> Указанные вами задачи завершились аварийно по причине исчерпания Вами
> дисковой квоты на узле n121:
> n121.basov ~ # quota -u akumpan
> quota: Cannot open quotafile /tmp/aquota.user: No such file or directory
> Disk quotas for user akumpan (uid 1046):
>       Filesystem  blocks   quota   limit   grace   files   quota   limit
> grace
>        /dev/root 6185860* 2000000 8000000    none      55  100000
> 500000
> 10.0.101.101:/home
>                    93652  2000000 10000000            2246  100000
> 200000
>
> Диск узла n121 забит недоставленными почтовыми сообщениями от Ваших
> задач:
>
> n121.basov ~ # find / -xdev -user akumpan
> /var/spool/torque/mom_priv/jobs/37495.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/mom_priv/jobs/37494.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/mom_priv/jobs/37487.master.basov.hpc.mephi.ru.SC
> /var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37207.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/36773.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/1075.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37200.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37205.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37208.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37209.master.basov.hpc.mephi.ru.ER
> /var/spool/torque/undelivered/37202.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.OU
> /var/spool/torque/undelivered/37198.master.basov.hpc.mephi.ru.ER
> ...
>
> Суммарный объём писем превышает 6GB:
> n121.basov ~ # du -d1 -h /var/spool/torque/undelivered
> 6.0G    /var/spool/torque/undelivered
>
> Опция менеджера ресурсов Torque по доставке уведомлений через почту не
> рассчитана на пересылку крупных файлов. Более того, на наших кластерах
> служба доставки почты была отключена по соображениям безопасности. Ваши
> письма перемещены в директорию ~/pool/mails.
>
> С уважением,
> инженер отдела UNIX-технологий,
> Аникеев Артём.
>


-- 
С уважением,
Кумпан А.В.
Лаборатория 344




More information about the hpc mailing list