[mephi-hpc] Ошибка при попытке запуска задачи на кластере basis

Павел Кулямин dryes20115 at gmail.com
Mon Jul 3 18:14:38 MSK 2023


Понял! Большое спасибо!

пн, 3 июл. 2023 г., 17:38 Воскобойников Роман Евгеньевич <
REVoskoboinikov at mephi.ru>:

> Павел, здравствуйте.
>
>
> Long story short, повреждена файловая система на вычислительном ноде
> кластера базис.
>
>> Проблема возникла рано утром в пятницу 30 июня. Письмо А.А.Аникееву
> послано в пятницу и повторно сегодня. Ответа пока нет.
>
> Cheers,
>
> Роман
>
>>
>
> ------------------------------
> *От:* hpc <hpc-bounces at lists.mephi.ru> от имени Павел Кулямин <
> dryes20115 at gmail.com>
> *Отправлено:* 3 июля 2023 г. 17:00
> *Кому:* NRNU MEPhI HPC discussion list
> *Тема:* [mephi-hpc] Ошибка при попытке запуска задачи на кластере basis
>
> Добрый день!
>
> Столкнулся с следующей проблемой, при запуске расчета с помощью программы
> Quantum Espresso на кластере Basis получаю ошибку следующего характера:
>
> --------------------------------------------------------------------------
> A call to mkdir was unable to create the desired directory:
>
>   Directory: /tmp
>   Error:     File exists
>
> Please check to ensure you have adequate permissions to perform
> the desired operation.
> --------------------------------------------------------------------------
> [t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file
> ../../orte/util/session_dir.c at line 106
> [t2n1:170080] [[51516,0],0] ORTE_ERROR_LOG: Error in file
> ../../orte/util/session_dir.c at line 345
> --------------------------------------------------------------------------
> It looks like orte_init failed for some reason; your parallel process is
> likely to abort.  There are many reasons that a parallel process can
> fail during orte_init; some of which are due to configuration or
> environment problems.  This failure appears to be an internal failure;
> here's some additional information (which may only be relevant to an
> Open MPI developer):
>
>   orte_session_dir failed
>   --> Returned value Error (-1) instead of ORTE_SUCCESS
> --------------------------------------------------------------------------
>
> Для запуска расчета используется следующий скрипт:
>
> #!/bin/bash
> #SBATCH --partition=gpu
> #SBATCH --nodes=1
> #SBATCH --gres=gpu:1
> #SBATCH --ntasks=1
> #SBATCH --time=300:00:00
> cd /mnt/pool/3/pakuliamin/QuantumEspresso/WS2/PS_59
> source /opt/nvidia/hpc_sdk/nvvars.sh
> source /opt/nvidia/hpc_sdk/nv_mpi_vars.sh
> source /opt/fftw-3.3.9/double/customvars.sh
> mpirun --mca btl self,smcuda /mnt/pool/3/pakuliamin/qe_basis/q-e/bin/pw.x
> -input relax.inp | tee relax.out
>
> Ранее задачи запускались успешно.
>
>  С чем может быть связана такая ошибка и как стоит ее исправить?
>
> С уважением, Кулямин П.А.
> Аспирант 2 курса НИЯУ МИФИ
> Кафедра № 67 "Физика конденсированных сред"
> Научный руководитель: Маслов М.М.
> Тел:8-905-582-00-63
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20230703/2edafdb9/attachment-0001.htm>


More information about the hpc mailing list