[mephi-hpc] Устойчивая работа кластера Basis и разное время работы одинаковых задач

Tue May 10 16:36:19 MSK 2022

Здравствуйте!

1. Почти год назад была проблема на Basis, связанная с разным временем работы одинаковых задач:

> Удалось поймать проблему с разным временем работы одинаковых задач QE
> на Basis. Время работы зависит от топологии шин внутри узла.
>
> Медленный сегмент:
> Name=gpu File=/dev/nvidia0 Cores=24-31
> Name=gpu File=/dev/nvidia1 Cores=16-23
> Name=gpu File=/dev/nvidia2 Cores=8-15
> Name=gpu File=/dev/nvidia3 Cores=0-7
>
> Быстрый сегмент:
> Name=gpu File=/dev/nvidia4 Cores=56-63
> Name=gpu File=/dev/nvidia5 Cores=48-55
> Name=gpu File=/dev/nvidia6 Cores=40-47
> Name=gpu File=/dev/nvidia7 Cores=32-39
>
> Похоже, что в библиотеке OpenMPI из состава Nvidia SDK сломан канал
> btl self, и она пытается передавать данные между сокетами через сетевой
> интерфейс, расположенный на PCIe-шине второго процессора.

>

> Поменять топологию не удалось - недостаточно PCIe шлейфов. Нашел, как
> обойти проблему программно через настройки nvidia_persistenced и CUDA-
> aware MPI.

>

> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.

Похоже, что после понижения версии NVIDIA HPC SDK

https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html описанная проблема снова всплыла.

2. Почему-то на кластере Basis бывает обваливаются задачи (не связаны с нехваткой памяти), после повторной перестановки менеджер Slurm пишет:

"(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions) или

(ReqNodeNotAvail, UnavailableNodes:t2n1)"

Большое спасибо!

С уважением, Владимир В Углов,

Кафедра физических проблем материаловедения (?9)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20220510/1ec05afe/attachment.htm>