[mephi-hpc] Часть задач снимается при запуске на кластере Cherenkov

anikeev anikeev at ut.mephi.ru
Fri Jun 1 17:25:02 MSK 2018


On Fri, 2018-06-01 at 17:11 +0300, Alexey Bogdanov wrote:
> Здравствуйте!

Добрый день!

> Возникла проблема - часть задач (практически идентичных) при запуске
> на 
> кластере Cherenkov снимается, другая часть - нормально работает. Вот 
> пример сообщения, приходящего при этом на e-mail.

Исправлено.

На узле 219 закончилось место на корневой файловой системе.
Перенастроил алгоритм автоматической очистки. 

>  From adm at master.cherenkov  Fri Jun  1 16:30:09 2018
> Return-Path: <adm at master.cherenkov>
> X-Original-To: hydra at master
> Delivered-To: hydra at master
> Received: by master (Postfix, from userid 0)
>      id 42799143C07; Fri,  1 Jun 2018 16:30:09 +0300 (MSK)
> To: hydra at master
> Subject: PBS JOB 54634.master
> Precedence: bulk
> Message-Id: <20180601133009.42799143C07 at master>
> Date: Fri,  1 Jun 2018 16:30:09 +0300 (MSK)
> From: adm at master.cherenkov (root)
> 
> PBS Job Id: 54634.master
> Job Name:   EASNVD165508_x25a_5
> Exec host:  n219/24
> Aborted by PBS Server
> Job cannot be executed
> See Administrator for help
> 
>  From adm at master.cherenkov  Fri Jun  1 16:30:17 2018
> Return-Path: <adm at master.cherenkov>
> X-Original-To: hydra at master
> Delivered-To: hydra at master
> Received: by master (Postfix, from userid 0)
>      id 4478B143C05; Fri,  1 Jun 2018 16:30:17 +0300 (MSK)
> To: hydra at master
> Subject: PBS JOB 54634.master
> Precedence: bulk
> Message-Id: <20180601133017.4478B143C05 at master>
> Date: Fri,  1 Jun 2018 16:30:17 +0300 (MSK)
> From: adm at master.cherenkov (root)
> 
> PBS Job Id: 54634.master
> Job Name:   EASNVD165508_x25a_5
> Exec host:  n219/24
> An error has occurred processing your job, see below.
> request to copy stageout files failed on node 'n219/24' for job
> 54634.master
> 
> Unable to copy file /var/spool/pbs/spool/54634.master.OU to 
> /home/hydra/geant4.10.3/examples/basic/NVD91_Cascade-
> build/EASNVD165508_x25a_5.o54634
> *** error from copy
> *** end error output
> 
> Unable to copy file /var/spool/pbs/spool/54634.master.ER to 
> /home/hydra/geant4.10.3/examples/basic/NVD91_Cascade-
> build/EASNVD165508_x25a_5.e54634
> *** error from copy
> *** end error output
> 
> 
> Похоже, что один из узлов отклоняет задачи. Посмотрите, пожалуйста,
> в 
> чем проблема!
> 
> Всего хорошего,
> с уважением,
> Алексей Богданов
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list