[mephi-hpc] проблема с расчетом на Басове, MCU

Богданович Ринат Бекирович RBBogdanovich at mephi.ru
Thu Nov 10 21:01:04 MSK 2016


Хорошо, большое спасибо.

-----Original Message-----
From: hpc [mailto:hpc-bounces at lists.mephi.ru] On Behalf Of anikeev
Sent: Wednesday, November 9, 2016 7:39 PM
To: NRNU MEPhI HPC discussion list <hpc at lists.mephi.ru>
Subject: Re: [mephi-hpc] проблема с расчетом на Басове, MCU

On Wed, 2016-11-09 at 11:39 +0300, anikeev wrote:
> On Mon, 2016-11-07 at 14:49 +0300, Богданович Ринат Бекирович wrote:
> > Добрый день, я Вам звонил сегодня по этому вопросу.
> 
> Здравствуйте!

Добрый вечер!

> > Вот ссылка на папку с кодом /mnt/pool/2/rynatb/MCUPTR/EXE_LINUX
> > Я настроил запуск задачи которая долго считается (название c2m5).
> >  
> > В процессе первой стадии (подготовка бибилотек) программа использует 
> > имеющиеся библиотеки (папка MDBPT50).
> > К ним прописывается путь в файле MCU.INI
> 
> Я запустил эту задачу от Вашего пользователя и наблюдаю за ней. Пока я 
> вижу, что загружен только процессор, оперативной памяти достаточно, 
> сеть свободна, на диски нагрузки нет. Либо до узкого горлышка ещё не 
> дошло, либо проблема в алгоритме. Возможно, падает производительность 
> от чрезмерного масштабирования параллельного алгоритма.
> 
> Подробный отчёт в приложении. Я проверю показатели в конце дня.

Ваше приложение всё ещё не загружает дисковую подсистему:

master.basov anikeev # ioping -W -D /mnt/pool/1/anikeev/ ...
--- /mnt/pool/1/anikeev/ (ext4 /dev/sdb) ioping statistics ---
300 requests completed in 5.0 min, 630 iops, 2.5 mb/s min/avg/max/mdev = 517 us / 1.6 ms / 22.4 ms / 3.3 ms master.basov anikeev # ioping -W -D /mnt/pool/2/anikeev/ ...
--- /mnt/pool/2/anikeev/ (ext4 /dev/sde) ioping statistics ---
322 requests completed in 5.4 min, 696 iops, 2.7 mb/s min/avg/max/mdev = 569 us / 1.4 ms / 23.4 ms / 3.1 ms master.basov anikeev # iostat -x 600 Linux 3.13.6-basov
(master.basov.hpc.mephi.ru)  11/09/2016      _x86_64_        (32 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.40    0.00    0.11    0.52    0.00   98.98

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util sda               0.72     1.80    0.59    3.54    17.15   258.54   133
.50     0.34   82.80    3.74   95.85   1.10   0.46 sdb               0.04     6.48    0.76   12.40    56.46  4101.01   631
.82     0.51   38.62    6.99   40.56   0.66   0.87 sdc               0.00     0.00    0.00    0.00     0.00     0.00    15
.42     0.00   11.95   11.95    0.00  11.93   0.00 sde               0.07     0.14    2.12    1.05   266.45   438.77   445
.04     0.08   25.82    3.58   70.68   0.94   0.30 sdd               0.00     0.00    0.00    0.00     0.00     0.00    15
.42     0.00    1.30    1.30    0.00   1.26   0.00 sdf               0.00     0.00    0.00    0.00     0.01     0.00     9
.42     0.00    1.26    1.23   33.00   1.15   0.00 sdg               0.00     0.00    0.00    0.00     0.01     0.00     9
.60     0.00    1.25    1.22   28.00   1.13   0.00 sdh               0.00     0.00    0.00    0.00     0.05     0.00    45
.63     0.00    2.28    2.16   33.00   1.55   0.00 sdi               1.17     0.26   22.81    0.54  3163.84   194.21   287
.60     1.23   52.52   11.69 1782.23   1.40   3.26

Подробные логи за 7 часов работы в приложениях. На текущий момент узкое место - процессор.

Я бы посоветовал Вам построить кривую времени выполнения от количества потоков. Вполне возможно, что вы перешли через предел масштабируемости параллелизма. Для отладки могут помочь утилиты perf и strace.

Если Вы всё же хотите кэшировать записываемые данные, это можно сделать
так:

#!/bin/sh
#
#This is an example script example.sh
#
#These commands set up the Grid Environment for your job:
#PBS -N ExampleJob
#PBS -l nodes=1:ppn=1,walltime=02:00:00
#PBS -M anikeev_aa at mail.ru

#print the time and date
date

#run simulation
#TODO replace echo by your aplication
#Local disk cache
echo "Hello world!" > /tmp/anikeev_tmp0.txt mv /tmp/anikeev_tmp0.txt /home/anikeev/anikeev_tmp0.txt #RAM cache echo "Hello world!" > /dev/shm/anikeev_tmp1.txt mv /dev/shm/anikeev_tmp1.txt /home/anikeev/anikeev_tmp1.txt


#print the time and date again
date

> Подпишитесь, пожалуйста, на лист рассылки 
> https://lists.mephi.ru/listin fo/hpc с текущей почты, а то Ваши письма 
> могут задерживаться и теряться.
> 
> > C уважением,
> > Ринат
> >  
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.mephi.ru
> > https://lists.mephi.ru/listinfo/hpc
> 
> _______________________________________________
> hpc mailing list
> hpc at lists.mephi.ru
> https://lists.mephi.ru/listinfo/hpc
--
С уважением,
аспирант кафедры 4 МИФИ,
инженер отдела Unix-технологий,
Аникеев Артём.
Тел.: 8 (495) 788-56-99, доб. 8998


More information about the hpc mailing list