[mephi-hpc] SIESTA

Мария Шутикова shutikova_maria at mail.ru
Fri Feb 8 15:55:15 MSK 2019


Понятно!
Значит из того, что задачи с nodes=1::ppn=32 и OMP_NUM_THREADS=1, 4, 8, 32 так завершаются, а задача с  nodes=1::ppn=1 и  OMP_NUM_THREADS=1 считается 10 часов, осталось поменять pnn, скажем, на  nodes=1::ppn=4, чтобы задача не завершалась как зависшая, и подобрать OMP_NUM_THREADS, или я ошибаюсь?
>Пятница,  8 февраля 2019, 14:15 +03:00 от anikeev <anikeev at ut.mephi.ru>:
>
>On Fri, 2019-02-08 at 10:20 +0300, Мария Шутикова wrote:
>> Здравствуйте!
>Добрый день!
>
>> Мой вопрос про ppn возник не с проста!
>> В папке pool/4/mishutikova остались файлы torque от двух задач:
>> W444job.sh.o143244, соответствующий запуску с nodes=1::ppn=1
>> и OMP_NUM_THREADS=1
>> 
>> и
>> 
>> W444job.sh.o143517, соответствующий запуску с nodes=1::ppn=32
>> и OMP_NUM_THREADS=1
>> 
>> В первом случае задача посчиталась полностью (через ~10 часов) и
>> написала в конце Job completed
>> 
>> Во втором случае задача застыла через  примерно 40 минут работы и
>> все. Если зайти и проверить ее статус, то выясняется, что задачи
>> больше нет, хотя она стояла в очереди long, и время выйти еще не
>> должно было.
>> И вот так было и раньше когда я ставила ppn=32
>> 
>> Вот...
>
>Torque не различает задачи, завершившиеся аварийно или штатно. Он
>просто записывает STDOUT и STDERR.
>
>Проблема оказалась в том, что Ваша задача потребляет слишком малую
>часть запрошенных ресурсов и принудительно завершается как зависшая.
>Попробуйте начать с OMP_NUM_THREADS=4 и больше.
>
>> _______________________________________________
>> hpc mailing list
>>  hpc at lists.mephi.ru
>>  https://lists.mephi.ru/listinfo/hpc
>-- 
>С уважением,
>инженер отдела Unix-технологий МИФИ,
>Аникеев Артём.
>Тел.: 8
>(495) 788-56-99, доб. 8998


-- 
Мария Шутикова
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mephi.ru/pipermail/hpc/attachments/20190208/8d9ec7ef/attachment.html>


More information about the hpc mailing list