[mephi-hpc] Ошибка при попытке запуска задачи на кластере basis

Воскобойников Роман Евгеньевич REVoskoboinikov at mephi.ru
Mon Jul 3 17:37:56 MSK 2023


Павел, здравствуйте.


Long story short, повреждена файловая система на вычислительном ноде кластера базис.

?

Проблема возникла рано утром в пятницу 30 июня. Письмо А.А.Аникееву послано в пятницу и повторно сегодня. Ответа пока нет.

Cheers,

Роман

?


________________________________
От: hpc <hpc-bounces at lists.mephi.ru> от имени Павел Кулямин <dryes20115 at gmail.com>
Отправлено: 3 июля 2023 г. 17:00
Кому: NRNU MEPhI HPC discussion list
Тема: [mephi-hpc] Ошибка при попытке запуска задачи на кластере basis

Добрый день!

Столкнулся с следующей проблемой, при запуске расчета с помощью программы Quantum Espresso на кластере Basis получаю ошибку следующего характера:

--------------------------------------------------------------------------
A call to mkdir was unable to create the desired directory:

  Directory: /tmp
  Error:     File exists

Please check to ensure you have adequate permissions to perform
the desired operation.
--------------------------------------------------------------------------
[t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file ../../orte/util/session_dir.c at line 106
[t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file ../../orte/util/session_dir.c at line 345
--------------------------------------------------------------------------
It looks like orte_init failed for some reason; your parallel process is
likely to abort.  There are many reasons that a parallel process can
fail during orte_init; some of which are due to configuration or
environment problems.  This failure appears to be an internal failure;
here's some additional information (which may only be relevant to an
Open MPI developer):

  orte_session_dir failed
  --> Returned value Error (-1) instead of ORTE_SUCCESS
--------------------------------------------------------------------------

Для запуска расчета используется следующий скрипт:

#!/bin/bash
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --gres=gpu:1
#SBATCH --ntasks=1
#SBATCH --time=300:00:00
cd /mnt/pool/3/pakuliamin/QuantumEspresso/WS2/PS_59
source /opt/nvidia/hpc_sdk/nvvars.sh
source /opt/nvidia/hpc_sdk/nv_mpi_vars.sh
source /opt/fftw-3.3.9/double/customvars.sh
mpirun --mca btl self,smcuda /mnt/pool/3/pakuliamin/qe_basis/q-e/bin/pw.x -input relax.inp | tee relax.out

Ранее задачи запускались успешно.

 С чем может быть связана такая ошибка и как стоит ее исправить?

С уважением, Кулямин П.А.
Аспирант 2 курса НИЯУ МИФИ
Кафедра ? 67 "Физика конденсированных сред"
Научный руководитель: Маслов М.М.
Тел:8-905-582-00-63
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20230703/774707c3/attachment.htm>


More information about the hpc mailing list