[mephi-hpc] (no subject)

anikeev anikeev at ut.mephi.ru
Wed Mar 16 17:43:12 MSK 2016


On Wed, 2016-03-16 at 16:43 +0300, Ilia Svintcov wrote:
> ОК

Извините, я не понял ответ. Мне подождать вашего ответа или помочь с
отладкой? Я попробовал посмотреть Ваши задачи, но их много и не понятно
о чём идёт речь.

Загрузку сервера в первом приближении можно посмотреть, добавив в
скрипт запуска команды uptime и free. Номер узла, на котором запущена
задача, можно узнать, используя команду:

qstat -f номер задачи

Наличие других задач на этом узле видно в выводе команды:

pbsnodes

Оперативная и L3 кэш память общая для всех задач, запущенных на одном
узле, так что задачи могут конфликтовать друг с другом. Hyperthreading
даёт преимущество далеко не на всех задачах: 608 - это количество
виртуальных ядер, реальных ядер только 304. Если Вы хотите запустить
задачи без использования Hyperthreading, Вам нужно запускать не более
16 потоков на одном узле. Вот здесь:

http://docs.adaptivecomputing.com/torque/5-1-0/help.htm#topics/torque/2
-jobs/requestingRes.htm%3FTocPath%3DSubmitting%2520and%2520Managing%252
0Jobs|Job%2520Submission|_____3

можно посмотреть, как затребовать необходимое количество оперативной
памяти на задачу, которая будет зарезервирована за Вашим процессом. Для
корректности сравнения времени выполнения я бы рекомендовал затребовать
под задачу весь узел, чтобы не пересекаться с задачами других
пользователей.

Время выполнения распараллеленых задач зависит от большого числа
факторов. Здесь нужно сначала узнать про Вашу задачу, прежде чем что-то 
рекомендовать.

Работа с файловой системой масштабируется тоже нелинейно. Для отладки
лучше не запускать несколько задач, работающих с общей директорией.

С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.

> 16 марта 2016 г., 16:38 пользователь anikeev <anikeev at ut.mephi.ru>
> написал:
> > Добрый день!
> > 
> > On Wed, 2016-03-16 at 16:12 +0300, Ilia Svintcov wrote:
> > > задача в интерактивном режиме выполняется меньше минуты, в батч
> > моде
> > > несколько часов, занято 400 ядер из 600, есть какие то решения?
> > 
> > Что за задача?
> > На каком узле она запустилась в batch mode? Какая нагрузка была на
> > этом
> > узле в тот момент?
> > На каком узле она запустилась в interactive mode? Какая загрузка
> > узла
> > была там?
> > Вы используете Hyperthreading?
> > Задача распараллелена? Как?
> > Как задача работает с файловой системой? Идентичны ли условия
> > запуска с
> > точки зрения нагрузки на файловое хранилище?
> > Что дала отладка приложения?
> > 
> > С уважением,
> > инженер отдела UNIX-технологий,
> > Аникеев Артём.
> > 
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.ut.mephi.ru
> > > http://lists.ut.mephi.ru/listinfo/hpc
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.ut.mephi.ru
> > http://lists.ut.mephi.ru/listinfo/hpc
> > 
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc



More information about the hpc mailing list