[mephi-hpc] [!!Mass Mail] Проблема с логами

anikeev anikeev at ut.mephi.ru
Wed Apr 22 14:37:21 MSK 2015


On Wed, 2015-04-22 at 11:23 +0300, Кумпан Александр wrote:
> Снова прошу прощения за забывчивость: ферма Basov
> 
> On 04/22/2015 11:20 AM, Кумпан Александр wrote:
> 
> > Уважаемая Администрация!
> > 
> >     Возникает непонятная проблема с возвратом логов после исполнения
> > задач, т.е. либо все файлы логов, либо часть из них возвращаются
> > пустыми.
> >     Пример:
> >     В директории /home/akumpan/pool/01Pa234 часть файлов с логами
> > имеют размер 0, чего не должно быть в принципе, т.к. при запуске
> > программы на исполнение используется команда time (сценарии запуска
> > лежат в той же директории и имеют постфикс .sh), которая просто
> > обязана дать какой-либо выход (по умолчанию, как я понимаю, в
> > error).
> >     При этом логи, возвращенные непустыми, содержат тот "выхлоп",
> > который они и должны содержать, например, файлы  01Pa234_014.out и
> > 01Pa234_014.err.
> >     Также привожу jobID задач из указанной директории (qstat):
> > 
> > 37486.master    01Pa234_000      akumpan         39:27:27 R
> > long           
> > 37487.master    01Pa234_001      akumpan         39:27:35 R
> > long           
> > 37488.master    01Pa234_002      akumpan         20:54:37 C
> > long           
> > 37489.master    01Pa234_003      akumpan         30:11:01 C
> > long           
> > 37490.master    01Pa234_004      akumpan         29:52:17 C
> > long           
> > 37491.master    01Pa234_005      akumpan         36:17:17 C
> > long           
> > 37492.master    01Pa234_006      akumpan         28:11:40 C
> > long           
> > 37493.master    01Pa234_007      akumpan         27:58:06 C
> > long           
> > 37494.master    01Pa234_008      akumpan         39:27:33 R
> > long           
> > 37495.master    01Pa234_009      akumpan         39:27:32 R
> > long           
> > 37496.master    01Pa234_010      akumpan         29:03:27 C
> > long           
> > 37497.master    01Pa234_011      akumpan         34:16:53 C
> > long           
> > 37498.master    01Pa234_012      akumpan         34:08:28 C
> > long           
> > 37499.master    01Pa234_013      akumpan         34:25:06 C
> > long           
> > 37500.master    01Pa234_014      akumpan         38:54:22 C
> > long           
> > 
> >     Кроме того, попытка воспроизвести указанную проблему привела к
> > еще более удручающим результатам: абсолютно все файлы логов
> > вернулись пустыми. Файлы запуска и результаты можно найти в
> > директории /home/akumpan/01test . Во избежание путаницы (было
> > предпринято несколько попыток воспроизведения с одинаковыми именами
> > задач), также приведу их ID:
> > 
> > 37549.master     01test_000       akumpan        00:00:28 C
> > short          
> > 37550.master     01test_001       akumpan        00:00:30 C
> > short          
> > 37551.master     01test_002       akumpan        00:00:14 C
> > short          
> > 37552.master     01test_003       akumpan        00:00:20 C
> > short          
> > 37553.master     01test_004       akumpan        00:00:27 C
> > short          
> > 37554.master     01test_005       akumpan        00:00:27 C
> > short          
> > 37555.master     01test_006       akumpan        00:00:28 C
> > short          
> > 37556.master     01test_007       akumpan        00:00:29 C
> > short          
> > 37557.master     01test_008       akumpan        00:00:00 C
> > short          
> > 37558.master     01test_009       akumpan        00:00:17 C short  
> > 
> >     Не могли бы вы помочь разобраться с возникшей проблемой?
> > Замечена она была ранее, но, сколько ни старался, я так и не понял,
> > в чем может быть ошибка. Есть ли какие-нибудь ограничения на
> > количество запущенных задач?
> > -- 
> > С уважением,
> > Кумпан А.В.
> > Лаборатория 344
> 
> 
> -- 
> С уважением,
> Кумпан А.В.
> Лаборатория 344
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc

Добрый день!

Указанные вами задачи завершились аварийно по причине исчерпания Вами
дисковой квоты на узле n121:
n121.basov ~ # quota -u akumpan
quota: Cannot open quotafile /tmp/aquota.user: No such file or directory
Disk quotas for user akumpan (uid 1046): 
     Filesystem  blocks   quota   limit   grace   files   quota   limit
grace
      /dev/root 6185860* 2000000 8000000    none      55  100000
500000        
10.0.101.101:/home
                  93652  2000000 10000000            2246  100000
200000

Диск узла n121 забит недоставленными почтовыми сообщениями от Ваших
задач:

n121.basov ~ # find / -xdev -user akumpan
/var/spool/torque/mom_priv/jobs/37495.master.basov.hpc.mephi.ru.SC
/var/spool/torque/mom_priv/jobs/37494.master.basov.hpc.mephi.ru.SC
/var/spool/torque/mom_priv/jobs/37487.master.basov.hpc.mephi.ru.SC
/var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37207.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/36773.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/1075.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37200.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37205.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37208.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37203.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37204.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37210.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37209.master.basov.hpc.mephi.ru.ER
/var/spool/torque/undelivered/37202.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/36778.master.basov.hpc.mephi.ru.OU
/var/spool/torque/undelivered/37198.master.basov.hpc.mephi.ru.ER
...

Суммарный объём писем превышает 6GB:
n121.basov ~ # du -d1 -h /var/spool/torque/undelivered
6.0G    /var/spool/torque/undelivered

Опция менеджера ресурсов Torque по доставке уведомлений через почту не
рассчитана на пересылку крупных файлов. Более того, на наших кластерах
служба доставки почты была отключена по соображениям безопасности. Ваши
письма перемещены в директорию ~/pool/mails.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.

-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: This is a digitally signed message part
URL: <http://lists.ut.mephi.ru/pipermail/hpc/attachments/20150422/3b04219c/attachment.sig>


More information about the hpc mailing list