[mephi-hpc] Ошибка при попытке запуска задачи на кластере basis

anikeev anikeev at ut.mephi.ru
Wed Jul 12 14:22:30 MSK 2023


On Mon, 2023-07-03 at 18:14 +0300, Павел Кулямин wrote:
Здравствуйте!

2023-06-30 на узле t2n1 вышел из строя NVMe накопитель из состава RAID-
0 для быстрой файловой системы временных данных /tmp. Для возобновления
работы /tmp была необходима перезагрузка узла t2n1, которую было
невозможно выполнить до 2023-07-07 по причине ожидание завершения уже
запущенных задач других пользователей. Начиная с 2023-07-07 файловая
система /tmp возвращена в эксплуатацию с половиной от исходного объема
хранения данных (6TB из 12TB).

Напоминаю, что файловая система /tmp не предназначена для длительного
хранения данных и не обладает аппаратным резервированием.

Задержка с информированием пользователей вызвана моим отпуском. Прошу
прощения за доставленные неудобства.

> Понял! Большое спасибо! 
> 
> пн, 3 июл. 2023 г., 17:38 Воскобойников Роман Евгеньевич
> <REVoskoboinikov at mephi.ru>:
> > Павел, здравствуйте.
> > 
> > Long story short, повреждена файловая система на вычислительном
> > ноде кластера базис. 
> > ​
> > Проблема возникла рано утром в пятницу 30 июня. Письмо А.А.Аникееву
> > послано в пятницу и повторно сегодня. Ответа пока нет.
> > 
> > Cheers,
> > 
> > Роман
> > ​
> > 
> > От: hpc <hpc-bounces at lists.mephi.ru> от имени Павел Кулямин
> > <dryes20115 at gmail.com>
> > Отправлено: 3 июля 2023 г. 17:00
> > Кому: NRNU MEPhI HPC discussion list
> > Тема: [mephi-hpc] Ошибка при попытке запуска задачи на кластере
> > basis
> >  
> > Добрый день!
> > 
> > Столкнулся с следующей проблемой, при запуске расчета с помощью
> > программы Quantum Espresso на кластере Basis получаю ошибку
> > следующего характера:
> > 
> > -------------------------------------------------------------------
> > -------
> > A call to mkdir was unable to create the desired directory:
> > 
> >   Directory: /tmp
> >   Error:     File exists
> > 
> > Please check to ensure you have adequate permissions to perform
> > the desired operation.
> > -------------------------------------------------------------------
> > -------
> > [t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file
> > ../../orte/util/session_dir.c at line 106
> > [t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file
> > ../../orte/util/session_dir.c at line 345
> > -------------------------------------------------------------------
> > -------
> > It looks like orte_init failed for some reason; your parallel
> > process is
> > likely to abort.  There are many reasons that a parallel process
> > can
> > fail during orte_init; some of which are due to configuration or
> > environment problems.  This failure appears to be an internal
> > failure;
> > here's some additional information (which may only be relevant to
> > an
> > Open MPI developer):
> > 
> >   orte_session_dir failed
> >   --> Returned value Error (-1) instead of ORTE_SUCCESS
> > -------------------------------------------------------------------
> > -------
> > 
> > Для запуска расчета используется следующий скрипт:
> > 
> > #!/bin/bash
> > #SBATCH --partition=gpu
> > #SBATCH --nodes=1
> > #SBATCH --gres=gpu:1
> > #SBATCH --ntasks=1
> > #SBATCH --time=300:00:00
> > cd /mnt/pool/3/pakuliamin/QuantumEspresso/WS2/PS_59
> > source /opt/nvidia/hpc_sdk/nvvars.sh
> > source /opt/nvidia/hpc_sdk/nv_mpi_vars.sh
> > source /opt/fftw-3.3.9/double/customvars.sh
> > mpirun --mca btl self,smcuda /mnt/pool/3/pakuliamin/qe_basis/q-
> > e/bin/pw.x -input relax.inp | tee relax.out
> > 
> > Ранее задачи запускались успешно.
> > 
> >  С чем может быть связана такая ошибка и как стоит ее исправить?
> > 
> > С уважением, Кулямин П.А.
> > Аспирант 2 курса НИЯУ МИФИ
> > Кафедра № 67 "Физика конденсированных сред"
> > Научный руководитель: Маслов М.М.
> > Тел:8-905-582-00-63
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc

-- 
С уважением,
ведущий инженер отдела Unix-технологий МИФИ,
к.ф.-м.н., Аникеев Артём.
Тел.: +7 (495) 788-56-99, доб. 8998
e-mail: aaanikeyev at mephi.ru, anikeev at ut.mephi.ru

Best regards,
MEPhI UNIX-technology department lead engineer,
Artem Anikeev, Ph.D.
Phone: +7 (495) 788-56-99, ext. 8998
e-mail: aaanikeyev at mephi.ru, anikeev at ut.mephi.ru


More information about the hpc mailing list