[mephi-hpc] Максимальное число потоков

anikeev anikeev at ut.mephi.ru
Tue Jun 25 16:43:57 MSK 2019


On Tue, 2019-06-25 at 13:11 +0000, Салем Мохамед Хассан Мохамед wrote:

Dear Mohamed Salem,

> see please attached file

This file is empty. The job with Job ID 229926 was forced to be
canceled because it was consuming less than 10% of requested resources.

> Thanks

Best regards,
Artem Anikeev.

> ________________________________________
> From: hpc [hpc-bounces at lists.mephi.ru] on behalf of anikeev [anikeev@
> ut.mephi.ru]
> Sent: Monday, June 24, 2019 6:43 PM
> To: NRNU MEPhI HPC discussion list
> Subject: Re: [mephi-hpc] Максимальное число потоков
> 
> On Mon, 2019-06-24 at 08:30 +0000, Салем Мохамед Хассан Мохамед
> wrote:
> > Hello Dear Anikeve,
> 
> Dear Mohamed Salem,
> 
> > Some jobs has stopped without any reasones, can you figure out
> > please?!! so I can avoid in next time
> 
> Please, specify job ID's for  this jobs. Is there any .o or .e files
> for this jobs?
> 
> A job may be forced to cancel only if it consumes less then 10% jf
> requested resources.
> 
> > Thanks
> 
> Best regards,
> Artem Anikeev
> 
> > ________________________________________
> > From: hpc [hpc-bounces at lists.mephi.ru] on behalf of anikeev
> > [anikeev@
> > ut.mephi.ru]
> > Sent: Thursday, June 20, 2019 1:16 PM
> > To: NRNU MEPhI HPC discussion list
> > Subject: Re: [mephi-hpc] Максимальное число потоков
> > 
> > On Wed, 2019-06-19 at 05:43 +0000, Салем Мохамед Хассан Мохамед
> > wrote:
> > > Пожалуйста, почему эта ошибка при компиляции с MPI ??? !!
> > > также подключить RPI дает ошибку,
> > 
> > Dear Mohamed Salem,
> > 
> > > elist mpi gives error,!
> > > _____________________   Change Dir: /mnt/pool/1/smohamed/SCALE-
> > > 6.2-
> > > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp
> > > 
> > >     Run Build Command(s):/usr/bin/make cmTC_0d84c/fast
> > >     /usr/bin/make -f CMakeFiles/cmTC_0d84c.dir/build.make
> > > CMakeFiles/cmTC_0d84c.dir/build
> > >     make[1]: Entering directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> > >     Building C object CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o
> > >     /home/smohamed/bin/mpicc    -o
> > > CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o   -c
> > > /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > > Source/build/gcc/CMakeFiles/CMakeTmp/testCCompiler.c
> > >     /home/smohamed/bin/mpicc: error while loading shared
> > > libraries:
> > > libopen-pal.so.40: cannot open shared object file: No such file
> > > or
> > > directory
> > >     CMakeFiles/cmTC_0d84c.dir/build.make:65: recipe for target
> > > 'CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o' failed
> > >     make[1]: *** [CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o]
> > > Error
> > > 127
> > >     make[1]: Leaving directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> > >     Makefile:121: recipe for target 'cmTC_0d84c/fast' failed
> > >     make: *** [cmTC_0d84c/fast] Error 2
> > 
> > The problem is in version of MPI, you try to use. There are four
> > open-
> > source MPI versions on Basov:
> > 
> > master.basov CMakeFiles # eix MPI
> >         mpi-mpich-amd64/mpich
> >         mpi-mpich-x86/mpich
> >         mpi-mpich2-amd64/mpich2
> >         sys-cluster/openmpi
> > 
> > available through "eselect mpi" and one proprietary MPI in Intel
> > PSXE
> > blob, available through custom intel scripts:
> > 
> > ls -lah /opt/intel/parallel_studio_xe_2018/psxevars.sh
> > 
> > As I can find, you try to use some custom MPI installation in your
> > home
> > directory:
> > 
> > /home/smohamed/bin/mpicc
> > 
> > This installation requires libopen-pal.so.40 library. It looks like
> > your custom installation is some version of openmpi from another
> > linux
> > distribution.
> > 
> > Preinstalled system-wide version of openmpi uses another version of
> > libopen-pal and works properly:
> > 
> > master.basov CMakeFiles # ls -lah /usr/lib64/libmpi.so
> > lrwxrwxrwx 1 root root 15 Jul 21  2014 /usr/lib64/libmpi.so ->
> > libmpi.so.1.4.0
> > master.basov CMakeFiles # ls -lah /usr/lib64/libmpi.so.1.4.0
> > -rwxr-xr-x 1 root root 781K Jul 21  2014 /usr/lib64/libmpi.so.1.4.0
> > master.basov CMakeFiles # ldd /usr/lib64/libmpi.so.1.4.0
> > ...
> >         libopen-pal.so.6 => /usr/lib64/libopen-pal.so.6
> > (0x00007ffe613e7000)
> > ...
> > 
> > If you want to use custom MPI compiler, you should inclusde and
> > link
> > libraries from this custom version of MPI, not from system-wide
> > version. Library "libopen-pal.so.40" should be somewhere in you
> > home
> > direcroiry, if custom version of MPI was installed well.
> > 
> > Dig in into gcc -L and -I options for custom library path.
> > 
> > > ___________________
> > > From: hpc [hpc-bounces at lists.mephi.ru] on behalf of Мария
> > > Шутикова
> > > [s
> > > hutikova_maria at mail.ru]
> > > Sent: Tuesday, June 18, 2019 12:55 PM
> > > To: hpc at lists.mephi.ru
> > > Subject: Re: [mephi-hpc] Максимальное число потоков
> > > 
> > > Большое спасибо за подробный ответ!
> > > 
> > > Вторник, 18 июня 2019, 12:05 +03:00 от anikeev <anikeev at ut.mephi.
> > > ru
> > > > :
> > > 
> > > On Mon, 2019-06-17 at 16:52 +0300, Мария Шутикова wrote:
> > > > Здравствуйте!
> > > 
> > > Добрый день!
> > > 
> > > > Подскажите пожалуйста, как я могу узнать максимальное число
> > > > потоков,
> > > > которое пользователь может занять в данной очереди? Допустим,
> > > > моя
> > > > задача на 128 потоках считается примерно 4 часа, хочу
> > > > определиться
> > > > с
> > > > очередью. Вероятно, лучше всего было бы запросить 4х32.
> > > 
> > > Оптимальная конфигурация MPI/OpenMP сильно зависит от алгоритма
> > > программы и входных данных. Универсального ответа здесь нет. Для
> > > типовых задач строится диаграмма времени выполнения тестовой
> > > задачи
> > > (например, 16x8, 8x16, 4x32).
> > > 
> > > > Можно ли в short занимать столько? Есть ли ограничения? Если я
> > > > некорректно задаю вопрос, поправьте меня, пожалуйста!
> > > 
> > > Для начала, Вам стоит обратить внимание на ограничения
> > > вычислительных
> > > потоков для одного пользователя. Они есть на кластерах Unicluster
> > > и
> > > Basov:
> > > 
> > > anikeev at master.unicluster</compose?To=anikeev at master.unicluster>
> > > ~
> > > $
> > > cat /var/spool/maui/maui.cfg
> > > ...
> > > USERCFG[DEFAULT]    MAXPROC=64
> > > 
> > > anikeev at master.basov</compose?To=anikeev at master.basov> ~ $ cat
> > > /var/spool/maui/maui.cfg
> > > ...
> > > USERCFG[DEFAULT]        MAXPROC=192
> > > 
> > > Таким образом, на Basov один пользователь не может занять более
> > > 192
> > > вычислительных потоков. Ваша задача подходит под требования
> > > Basov,
> > > и
> > > не
> > > подходит под требования Unicluster.
> > > 
> > > Далее, нужно ознакомиться с типами очередей:
> > > 
> > > anikeev at master.basov</compose?To=anikeev at master.basov> ~ $ qmgr
> > > -c
> > > 'p
> > > s'
> > > ...
> > > create queue long
> > > ...
> > > set queue long max_queuable = 1000 - Не более 1000 таких задач в
> > > очереди для всех пользователей. 1001-я станет blocked
> > > set queue long max_user_queuable = 500 - Не более 500 задач в
> > > очереди
> > > от одного пользователя. 501-я станет blocked
> > > set queue long max_running = 400 - Не более 400 одновременно
> > > запущенных
> > > задач. 401-я останется в очереди, пока не закончится одна из
> > > запущенных.
> > > set queue long resources_max.walltime = 168:00:00 - максимальное
> > > время
> > > выполнения
> > > set queue long resources_min.walltime = 24:00:01 - минимальное
> > > время
> > > выполнения
> > > set queue long disallowed_types = interactive - запрещены
> > > интерактивные
> > > задачи (qsub -I)
> > > set queue long resources_available.procct = 192 - не более 192
> > > вычислительных потоков для запущенных задач для всех
> > > пользователей.
> > > Если задаче не хватает потоков, задача остается в очереди до
> > > освобождения ресурсов
> > > set queue long max_user_run = 150 - не более 150 одновременно
> > > запущенных задач от одного пользователя. 151-я останется в
> > > очереди,
> > > пока не закончится одна из запущенных.
> > > ...
> > > 
> > > Подробное руководство пользователя есть здесь:
> > > 
> > > http://docs.adaptivecomputing.com/maui/
> > > https://www.adaptivecomputing.com/support/documentation-index/tor
> > > qu
> > > e-
> > > re
> > > source-manager-documentation/
> > > 
> > > Не на всех очередях установлены все типы ограничений. Конкретно
> > > по
> > > Вашему вопросу:
> > > 
> > > Basov:
> > > 
> > > create queue short
> > > ...
> > > set queue short max_queuable = 1000
> > > set queue short max_user_queuable = 640
> > > set queue short max_running = 500
> > > set queue short resources_max.walltime = 06:00:00
> > > ...
> > > set queue short max_user_run = 300
> > > ...   Change Dir: /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > > Source/build/gcc/CMakeFiles/CMakeTmp
> > > 
> > >     Run Build Command(s):/usr/bin/make cmTC_0d84c/fast
> > >     /usr/bin/make -f CMakeFiles/cmTC_0d84c.dir/build.make
> > > CMakeFiles/cmTC_0d84c.dir/build
> > >     make[1]: Entering directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> > >     Building C object CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o
> > >     /home/smohamed/bin/mpicc    -o
> > > CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o   -c
> > > /mnt/pool/1/smohamed/SCALE-6.2-serial-6.2.1-
> > > Source/build/gcc/CMakeFiles/CMakeTmp/testCCompiler.c
> > >     /home/smohamed/bin/mpicc: error while loading shared
> > > libraries:
> > > libopen-pal.so.40: cannot open shared object file: No such file
> > > or
> > > directory
> > >     CMakeFiles/cmTC_0d84c.dir/build.make:65: recipe for target
> > > 'CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o' failed
> > >     make[1]: *** [CMakeFiles/cmTC_0d84c.dir/testCCompiler.c.o]
> > > Error
> > > 127
> > >     make[1]: Leaving directory '/mnt/pool/1/smohamed/SCALE-6.2-
> > > serial-6.2.1-Source/build/gcc/CMakeFiles/CMakeTmp'
> > >     Makefile:121: recipe for target 'cmTC_0d84c/fast' failed
> > >     make: *** [cmTC_0d84c/fast] Error 2
> > > 
> > > 
> > > 
> > > Строки "resources_available.procct" нет. Других ограничений на
> > > число
> > > вычислительных потоков нет. Да, задачу 128 x 04:00:00 можно
> > > запустить
> > > на Basov. Она встанет в общую очередь, если в очереди менее 1000
> > > таких
> > > задач или 640 Ваших таких задач.
> > > 
> > > Cherenkov:
> > > 
> > > Аналогично.
> > > 
> > > 
> > > > _______________________________________________
> > > > hpc mailing list
> > > > hpc at lists.mephi.ru</compose?To=hpc at lists.mephi.ru>
> > > > https://lists.mephi.ru/listinfo/hpc
> > > 
> > > --
> > > С уважением,
> > > инженер отдела Unix-технологий МИФИ,
> > > Аникеев Артём.
> > > Тел.: 8
> > > (495) 788-56-99, доб. 8998
> > > 
> > > 
> > > --
> > > Мария Шутикова
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.mephi.ru
> > > https://lists.mephi.ru/listinfo/hpc
> > 
> > --
> > С уважением,
> > инженер отдела Unix-технологий МИФИ,
> > Аникеев Артём.
> > Тел.: 8
> > (495) 788-56-99, доб. 8998
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> --
> С уважением,
> инженер отдела Unix-технологий МИФИ,
> Аникеев Артём.
> Тел.: 8
> (495) 788-56-99, доб. 8998
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
-- 
С уважением,
инженер отдела Unix-технологий МИФИ,
Аникеев Артём.
Тел.: 8
(495) 788-56-99, доб. 8998


More information about the hpc mailing list