[mephi-hpc] (no subject)
anikeev
anikeev at ut.mephi.ru
Wed Mar 16 17:43:12 MSK 2016
On Wed, 2016-03-16 at 16:43 +0300, Ilia Svintcov wrote:
> ОК
Извините, я не понял ответ. Мне подождать вашего ответа или помочь с
отладкой? Я попробовал посмотреть Ваши задачи, но их много и не понятно
о чём идёт речь.
Загрузку сервера в первом приближении можно посмотреть, добавив в
скрипт запуска команды uptime и free. Номер узла, на котором запущена
задача, можно узнать, используя команду:
qstat -f номер задачи
Наличие других задач на этом узле видно в выводе команды:
pbsnodes
Оперативная и L3 кэш память общая для всех задач, запущенных на одном
узле, так что задачи могут конфликтовать друг с другом. Hyperthreading
даёт преимущество далеко не на всех задачах: 608 - это количество
виртуальных ядер, реальных ядер только 304. Если Вы хотите запустить
задачи без использования Hyperthreading, Вам нужно запускать не более
16 потоков на одном узле. Вот здесь:
http://docs.adaptivecomputing.com/torque/5-1-0/help.htm#topics/torque/2
-jobs/requestingRes.htm%3FTocPath%3DSubmitting%2520and%2520Managing%252
0Jobs|Job%2520Submission|_____3
можно посмотреть, как затребовать необходимое количество оперативной
памяти на задачу, которая будет зарезервирована за Вашим процессом. Для
корректности сравнения времени выполнения я бы рекомендовал затребовать
под задачу весь узел, чтобы не пересекаться с задачами других
пользователей.
Время выполнения распараллеленых задач зависит от большого числа
факторов. Здесь нужно сначала узнать про Вашу задачу, прежде чем что-то
рекомендовать.
Работа с файловой системой масштабируется тоже нелинейно. Для отладки
лучше не запускать несколько задач, работающих с общей директорией.
С уважением,
инженер отдела UNIX-технологий,
Аникеев Артём.
> 16 марта 2016 г., 16:38 пользователь anikeev <anikeev at ut.mephi.ru>
> написал:
> > Добрый день!
> >
> > On Wed, 2016-03-16 at 16:12 +0300, Ilia Svintcov wrote:
> > > задача в интерактивном режиме выполняется меньше минуты, в батч
> > моде
> > > несколько часов, занято 400 ядер из 600, есть какие то решения?
> >
> > Что за задача?
> > На каком узле она запустилась в batch mode? Какая нагрузка была на
> > этом
> > узле в тот момент?
> > На каком узле она запустилась в interactive mode? Какая загрузка
> > узла
> > была там?
> > Вы используете Hyperthreading?
> > Задача распараллелена? Как?
> > Как задача работает с файловой системой? Идентичны ли условия
> > запуска с
> > точки зрения нагрузки на файловое хранилище?
> > Что дала отладка приложения?
> >
> > С уважением,
> > инженер отдела UNIX-технологий,
> > Аникеев Артём.
> >
> > > _______________________________________________
> > > hpc mailing list
> > > hpc at lists.ut.mephi.ru
> > > http://lists.ut.mephi.ru/listinfo/hpc
> > _______________________________________________
> > hpc mailing list
> > hpc at lists.ut.mephi.ru
> > http://lists.ut.mephi.ru/listinfo/hpc
> >
> _______________________________________________
> hpc mailing list
> hpc at lists.ut.mephi.ru
> http://lists.ut.mephi.ru/listinfo/hpc
More information about the hpc
mailing list