<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=koi8-r">
<style type="text/css" style="display:none"><!--P{margin-top:0;margin-bottom:0;} p
{margin-top:0;
margin-bottom:0}--></style>
</head>
<body dir="ltr" style="font-size:12pt;color:#000000;background-color:#FFFFFF;font-family:Calibri,Arial,Helvetica,sans-serif;">
<p>Здравствуйте!</p>
<p><br>
</p>
<p><br>
</p>
<p><span style="background-color:rgb(255,255,0)">1.</span> Почти год назад была проблема на Basis, связанная с разным временем работы одинаковых задач:<br>
</p>
<p><font size="2"><span style="font-size:10pt"><br>
</span></font></p>
<p><font size="2"><span style="font-size:10pt">> Удалось поймать проблему с разным временем работы одинаковых задач QE<br>
> на <span class="highlight" id="0.2640733474320389" name="searchHitInReadingPane">
Basis</span>. Время работы зависит от топологии шин внутри узла.<br>
> <br>
> Медленный сегмент:<br>
> Name=gpu File=/dev/nvidia0 Cores=24-31<br>
> Name=gpu File=/dev/nvidia1 Cores=16-23<br>
> Name=gpu File=/dev/nvidia2 Cores=8-15<br>
> Name=gpu File=/dev/nvidia3 Cores=0-7<br>
> <br>
> Быстрый сегмент:<br>
> Name=gpu File=/dev/nvidia4 Cores=56-63<br>
> Name=gpu File=/dev/nvidia5 Cores=48-55<br>
> Name=gpu File=/dev/nvidia6 Cores=40-47<br>
> Name=gpu File=/dev/nvidia7 Cores=32-39<br>
> <br>
> Похоже, что в библиотеке OpenMPI из состава Nvidia SDK сломан канал<br>
> btl self, и она пытается передавать данные между сокетами через сетевой<br>
> интерфейс, расположенный на PCIe-шине второго процессора. <br>
</span></font></p>
<p>><br>
</p>
<p><font size="2"><span style="font-size:10pt">> Поменять топологию не удалось - недостаточно PCIe шлейфов. Нашел, как<br>
> обойти проблему программно через настройки nvidia_persistenced и CUDA-<br>
> aware MPI.<br>
</span></font></p>
<p><font size="2"><span style="font-size:10pt">><br>
</span></font></p>
<p><font size="2"><span style="font-size:10pt">> С уважением,<br>
> инженер отдела Unix-технологий МИФИ,<br>
> Аникеев Артём.<br>
</span></font></p>
<p><br>
</p>
<p>Похоже, что после понижения версии NVIDIA HPC SDK </p>
<p><a href="https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html">https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html</a> описанная проблема снова всплыла.</p>
<p><br>
</p>
<p><span style="background-color:rgb(255,255,0)">2.</span> Почему-то на кластере Basis бывает обваливаются задачи (не связаны с нехваткой памяти), после повторной перестановки менеджер Slurm пишет:</p>
<p>"(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions) или
</p>
<p>(ReqNodeNotAvail, UnavailableNodes:t2n1)"</p>
<p><br>
</p>
<p><br>
</p>
<p><br>
</p>
<p>Большое спасибо!<br>
</p>
<p>С уважением, Владимир В Углов,</p>
<p><font style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);" face="Verdana,sans-serif"><span style="font-size: 0.8em; color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);"><span style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);">Кафедра физических
проблем материаловедения (№9)</span></span></font><span style="color: rgb(0, 0, 0); text-decoration: rgb(0, 0, 0);"> </span><br>
</p>
</body>
</html>