[mephi-hpc] Максимальное число потоков

anikeev anikeev at ut.mephi.ru
Mon Jun 24 18:43:28 MSK 2019


On Mon, 2019-06-24 at 08:30 +0000, Салем Мохамед Хассан Мохамед wrote:
> Hello Dear Anikeve,

Dear Mohamed Salem,

> Some jobs has stopped without any reasones, can you figure out
> please?!! so I can avoid in next time

Please, specify job ID's for  this jobs. Is there any .o or .e files
for this jobs?

A job may be forced to cancel only if it consumes less then 10% jf
requested resources.

> Thanks

Best regards,
Artem Anikeev

> ________________________________________
> From: hpc [hpc-bounces at lists.mephi.ru] on behalf of anikeev [anikeev@
> ut.mephi.ru]
> Sent: Thursday, June 20, 2019 1:16 PM
> To: NRNU MEPhI HPC discussion list
> Subject: Re: [mephi-hpc] Максимальное число потоков
> 
> On Wed, 2019-06-19 at 05:43 +0000, Салем Мохамед Хассан Мохамед
> wrote:
> > Пожалуйста, почему эта ошибка при компиляции с MPI ??? !!
> > также подключить RPI дает ошибку,
> 
> Dear Mohamed Salem,
> 
> > elist mpi gives error,!
> > _____________________   Change Dir: /mnt/pool/1/smohamed/SCALE-6.2-
> > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp
> > 
> >     Run Build Command(s):/usr/bin/make cmTC_0d84c/fast
> >     /usr/bin/make -f CMakeFiles/cmTC_0d84c.dir/build.make
> > CMakeFiles/cmTC_0d84c.dir/build
> >     make[1]: Entering directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> >     Building C object CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o
> >     /home/smohamed/bin/mpicc    -o
> > CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o   -c
> > /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > Source/build/gcc/CMakeFiles/CMakeTmp/testCCompiler.c
> >     /home/smohamed/bin/mpicc: error while loading shared libraries:
> > libopen-pal.so.40: cannot open shared object file: No such file or
> > directory
> >     CMakeFiles/cmTC_0d84c.dir/build.make:65: recipe for target
> > 'CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o' failed
> >     make[1]: *** [CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o]
> > Error
> > 127
> >     make[1]: Leaving directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> >     Makefile:121: recipe for target 'cmTC_0d84c/fast' failed
> >     make: *** [cmTC_0d84c/fast] Error 2
> 
> The problem is in version of MPI, you try to use. There are four
> open-
> source MPI versions on Basov:
> 
> master.basov CMakeFiles # eix MPI
>         mpi-mpich-amd64/mpich
>         mpi-mpich-x86/mpich
>         mpi-mpich2-amd64/mpich2
>         sys-cluster/openmpi
> 
> available through "eselect mpi" and one proprietary MPI in Intel PSXE
> blob, available through custom intel scripts:
> 
> ls -lah /opt/intel/parallel_studio_xe_2018/psxevars.sh
> 
> As I can find, you try to use some custom MPI installation in your
> home
> directory:
> 
> /home/smohamed/bin/mpicc
> 
> This installation requires libopen-pal.so.40 library. It looks like
> your custom installation is some version of openmpi from another
> linux
> distribution.
> 
> Preinstalled system-wide version of openmpi uses another version of
> libopen-pal and works properly:
> 
> master.basov CMakeFiles # ls -lah /usr/lib64/libmpi.so
> lrwxrwxrwx 1 root root 15 Jul 21  2014 /usr/lib64/libmpi.so ->
> libmpi.so.1.4.0
> master.basov CMakeFiles # ls -lah /usr/lib64/libmpi.so.1.4.0
> -rwxr-xr-x 1 root root 781K Jul 21  2014 /usr/lib64/libmpi.so.1.4.0
> master.basov CMakeFiles # ldd /usr/lib64/libmpi.so.1.4.0
> ...
>         libopen-pal.so.6 => /usr/lib64/libopen-pal.so.6
> (0x00007ffe613e7000)
> ...
> 
> If you want to use custom MPI compiler, you should inclusde and link
> libraries from this custom version of MPI, not from system-wide
> version. Library "libopen-pal.so.40" should be somewhere in you home
> direcroiry, if custom version of MPI was installed well.
> 
> Dig in into gcc -L and -I options for custom library path.
> 
> > ___________________
> > From: hpc [hpc-bounces at lists.mephi.ru] on behalf of Мария Шутикова
> > [s
> > hutikova_maria at mail.ru]
> > Sent: Tuesday, June 18, 2019 12:55 PM
> > To: hpc at lists.mephi.ru
> > Subject: Re: [mephi-hpc] Максимальное число потоков
> > 
> > Большое спасибо за подробный ответ!
> > 
> > Вторник, 18 июня 2019, 12:05 +03:00 от anikeev <anikeev at ut.mephi.ru
> > >:
> > On Mon, 2019-06-17 at 16:52 +0300, Мария Шутикова wrote:
> > > Здравствуйте!
> > 
> > Добрый день!
> > 
> > > Подскажите пожалуйста, как я могу узнать максимальное число
> > > потоков,
> > > которое пользователь может занять в данной очереди? Допустим, моя
> > > задача на 128 потоках считается примерно 4 часа, хочу
> > > определиться
> > > с
> > > очередью. Вероятно, лучше всего было бы запросить 4х32.
> > 
> > Оптимальная конфигурация MPI/OpenMP сильно зависит от алгоритма
> > программы и входных данных. Универсального ответа здесь нет. Для
> > типовых задач строится диаграмма времени выполнения тестовой задачи
> > (например, 16x8, 8x16, 4x32).
> > 
> > > Можно ли в short занимать столько? Есть ли ограничения? Если я
> > > некорректно задаю вопрос, поправьте меня, пожалуйста!
> > 
> > Для начала, Вам стоит обратить внимание на ограничения
> > вычислительных
> > потоков для одного пользователя. Они есть на кластерах Unicluster и
> > Basov:
> > 
> > anikeev at master.unicluster</compose?To=anikeev at master.unicluster> ~
> > $
> > cat /var/spool/maui/maui.cfg
> > ...
> > USERCFG[DEFAULT]    MAXPROC=64
> > 
> > anikeev at master.basov</compose?To=anikeev at master.basov> ~ $ cat
> > /var/spool/maui/maui.cfg
> > ...
> > USERCFG[DEFAULT]        MAXPROC=192
> > 
> > Таким образом, на Basov один пользователь не может занять более 192
> > вычислительных потоков. Ваша задача подходит под требования Basov,
> > и
> > не
> > подходит под требования Unicluster.
> > 
> > Далее, нужно ознакомиться с типами очередей:
> > 
> > anikeev at master.basov</compose?To=anikeev at master.basov> ~ $ qmgr -c
> > 'p
> > s'
> > ...
> > create queue long
> > ...
> > set queue long max_queuable = 1000 - Не более 1000 таких задач в
> > очереди для всех пользователей. 1001-я станет blocked
> > set queue long max_user_queuable = 500 - Не более 500 задач в
> > очереди
> > от одного пользователя. 501-я станет blocked
> > set queue long max_running = 400 - Не более 400 одновременно
> > запущенных
> > задач. 401-я останется в очереди, пока не закончится одна из
> > запущенных.
> > set queue long resources_max.walltime = 168:00:00 - максимальное
> > время
> > выполнения
> > set queue long resources_min.walltime = 24:00:01 - минимальное
> > время
> > выполнения
> > set queue long disallowed_types = interactive - запрещены
> > интерактивные
> > задачи (qsub -I)
> > set queue long resources_available.procct = 192 - не более 192
> > вычислительных потоков для запущенных задач для всех пользователей.
> > Если задаче не хватает потоков, задача остается в очереди до
> > освобождения ресурсов
> > set queue long max_user_run = 150 - не более 150 одновременно
> > запущенных задач от одного пользователя. 151-я останется в очереди,
> > пока не закончится одна из запущенных.
> > ...
> > 
> > Подробное руководство пользователя есть здесь:
> > 
> > http://docs.adaptivecomputing.com/maui/
> > https://www.adaptivecomputing.com/support/documentation-index/torqu
> > e-
> > re
> > source-manager-documentation/
> > 
> > Не на всех очередях установлены все типы ограничений. Конкретно по
> > Вашему вопросу:
> > 
> > Basov:
> > 
> > create queue short
> > ...
> > set queue short max_queuable = 1000
> > set queue short max_user_queuable = 640
> > set queue short max_running = 500
> > set queue short resources_max.walltime = 06:00:00
> > ...
> > set queue short max_user_run = 300
> > ...   Change Dir: /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > Source/build/gcc/CMakeFiles/CMakeTmp
> > 
> >     Run Build Command(s):/usr/bin/make cmTC_0d84c/fast
> >     /usr/bin/make -f CMakeFiles/cmTC_0d84c.dir/build.make
> > CMakeFiles/cmTC_0d84c.dir/build
> >     make[1]: Entering directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> >     Building C object CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o
> >     /home/smohamed/bin/mpicc    -o
> > CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o   -c
> > /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > Source/build/gcc/CMakeFiles/CMakeTmp/testCCompiler.c
> >     /home/smohamed/bin/mpicc: error while loading shared libraries:
> > libopen-pal.so.40: cannot open shared object file: No such file or
> > directory
> >     CMakeFiles/cmTC_0d84c.dir/build.make:65: recipe for target
> > 'CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o' failed
> >     make[1]: *** [CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o]
> > Error
> > 127
> >     make[1]: Leaving directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> >     Makefile:121: recipe for target 'cmTC_0d84c/fast' failed
> >     make: *** [cmTC_0d84c/fast] Error 2
> > 
> > 
> > 
> > Строки "resources_available.procct" нет. Других ограничений на
> > число
> > вычислительных потоков нет. Да, задачу 128 x 04:00:00 можно
> > запустить
> > на Basov. Она встанет в общую очередь, если в очереди менее 1000
> > таких
> > задач или 640 Ваших таких задач.
> > 
> > Cherenkov:
> > 
> > Аналогично.
> > 
> > 
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru</compose?To=hpc at lists.mephi.ru>
> > > https://lists.mephi.ru/listinfo/hpc
> > 
> > --
> > С уважением,
> > инженер отдела Unix-технологий МИФИ,
> > Аникеев Артём.
> > Тел.: 8
> > (495) 788-56-99, доб. 8998
> > 
> > 
> > --
> > Мария Шутикова
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list