[mephi-hpc] Устойчивая работа кластера Basis и разное время работы одинаковых задач
Углов Владимир Васильевич
VVUglov at mephi.ru
Tue May 10 16:36:19 MSK 2022
Здравствуйте!
1. Почти год назад была проблема на Basis, связанная с разным временем работы одинаковых задач:
> Удалось поймать проблему с разным временем работы одинаковых задач QE
> на Basis. Время работы зависит от топологии шин внутри узла.
>
> Медленный сегмент:
> Name=gpu File=/dev/nvidia0 Cores=24-31
> Name=gpu File=/dev/nvidia1 Cores=16-23
> Name=gpu File=/dev/nvidia2 Cores=8-15
> Name=gpu File=/dev/nvidia3 Cores=0-7
>
> Быстрый сегмент:
> Name=gpu File=/dev/nvidia4 Cores=56-63
> Name=gpu File=/dev/nvidia5 Cores=48-55
> Name=gpu File=/dev/nvidia6 Cores=40-47
> Name=gpu File=/dev/nvidia7 Cores=32-39
>
> Похоже, что в библиотеке OpenMPI из состава Nvidia SDK сломан канал
> btl self, и она пытается передавать данные между сокетами через сетевой
> интерфейс, расположенный на PCIe-шине второго процессора.
>
> Поменять топологию не удалось - недостаточно PCIe шлейфов. Нашел, как
> обойти проблему программно через настройки nvidia_persistenced и CUDA-
> aware MPI.
>
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
Похоже, что после понижения версии NVIDIA HPC SDK
https://lists.mephi.ru/pipermail/hpc/2021-August/000878.html описанная проблема снова всплыла.
2. Почему-то на кластере Basis бывает обваливаются задачи (не связаны с нехваткой памяти), после повторной перестановки менеджер Slurm пишет:
"(Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions) или
(ReqNodeNotAvail, UnavailableNodes:t2n1)"
Большое спасибо!
С уважением, Владимир В Углов,
Кафедра физических проблем материаловедения (?9)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20220510/1ec05afe/attachment.htm>
More information about the hpc
mailing list