<html>

<head>

<meta http-equiv="Content-Type" content="text/html; charset=koi8-r">

<style type="text/css" style="display:none"><!--P{margin-top:0;margin-bottom:0;} p

        {margin-top:0;

        margin-bottom:0}--></style>

</head>

<body dir="ltr" style="font-size:12pt;color:#000000;background-color:#FFFFFF;font-family:Calibri,Arial,Helvetica,sans-serif;">

<p>Здравствуйте!</p>

<p><br>

</p>

<p><br>

</p>

<p><span style="background-color:rgb(255,255,0)">1.</span> Почти год назад была проблема на Basis, связанная с разным временем работы одинаковых задач:<br>

</p>

<p><font size="2"><span style="font-size:10pt"><br>

</span></font></p>

<p><font size="2"><span style="font-size:10pt">> Удалось поймать проблему с разным временем работы одинаковых задач QE<br>

> на <span class="highlight" id="0.2640733474320389" name="searchHitInReadingPane">

Basis</span>. Время работы зависит от топологии шин внутри узла.<br>

> <br>

> Медленный сегмент:<br>

> Name=gpu File=/dev/nvidia0 Cores=24-31<br>

> Name=gpu File=/dev/nvidia1 Cores=16-23<br>

> Name=gpu File=/dev/nvidia2 Cores=8-15<br>

> Name=gpu File=/dev/nvidia3 Cores=0-7<br>

> <br>

> Быстрый сегмент:<br>

> Name=gpu File=/dev/nvidia4 Cores=56-63<br>

> Name=gpu File=/dev/nvidia5 Cores=48-55<br>

> Name=gpu File=/dev/nvidia6 Cores=40-47<br>

> Name=gpu File=/dev/nvidia7 Cores=32-39<br>

> <br>

> Похоже, что в библиотеке OpenMPI из состава Nvidia SDK сломан канал<br>

> btl self, и она пытается передавать данные между сокетами через сетевой<br>

> интерфейс, расположенный на PCIe-шине второго процессора. <br>

</span></font></p>

<p>><br>

</p>

<p><font size="2"><span style="font-size:10pt">> Поменять топологию не удалось - недостаточно PCIe шлейфов. Нашел, как<br>

> обойти проблему программно через настройки nvidia_persistenced и CUDA-<br>

> aware MPI.<br>

</span></font></p>

<p><font size="2"><span style="font-size:10pt">><br>

</span></font></p>

<p><font size="2"><span style="font-size:10pt">> С уважением,<br>

> инженер отдела Unix-технологий МИФИ,<br>

> Аникеев Артём.<br>

</span></font></p>

<p><br>

</p>

<p>Похоже, что после понижения версии NVIDIA HPC SDK </p>

<p><a href="https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html">https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html</a> описанная проблема снова всплыла.</p>

<p><br>

</p>

<p><span style="background-color:rgb(255,255,0)">2.</span> Почему-то на кластере Basis бывает обваливаются задачи (не связаны с нехваткой памяти), после повторной перестановки менеджер Slurm пишет:</p>

<p>"(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions) или

</p>

<p>(ReqNodeNotAvail, UnavailableNodes:t2n1)"</p>

<p><br>

</p>

<p><br>

</p>

<p><br>

</p>

<p>Большое спасибо!<br>

</p>

<p>С уважением, Владимир В Углов,</p>

<p><font style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);" face="Verdana,sans-serif"><span style="font-size: 0.8em; color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);"><span style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);">Кафедра физических

 проблем материаловедения (№9)</span></span></font><span style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);"> </span><br>

</p>

</body>

</html>