Форум

Пожалуйста или Регистрация для создания записей и тем.

Исследование свойств диагональных латинских квадратов в проектах добровольных распределенных вычислений и не только...

НазадСтраница 14 из 190Далее

Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль. 19 часов процессорного времени пропали.

Вот об этом я и писал. Безмониторные системники тупо перезагружаю через каждые 8 часов. Пока таких длинных висяков  не ловил, максимум вроде часа два было.

К сожалению, в учёной записи http://gerasim.boinc.ru/users/viewResults.aspx?userid=11337

сегодня, 8 февраля прямо массовое завершение заданий с ошибками!

 

Дополнение к прошлому сообщению - посмотрел более детально, так вот с ошибкой выходят приложения Test Separator

Цитата: Yura12 от 07.02.2020, 22:13

Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль.

В версии расчетника 3.1.0 данная ошибка исправлена, у вас версия была 3.0.8. Если что-то подобное будет повторяться, дайте мне знать, у меня ошибок нет

SerVal отреагировал на эту запись.
SerVal

Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.

А так можно ли всё-таки в Test Separator сделать деадлайн не 1 а 2 дня?

При построении ESODLS методом полного перебора в проекте высота комбинаторных поддеревьев в WU'шках получается существенно различной, что приводит к существенному разбросу во времени их счета. Чтобы время счета не было чрезмерно большим, в коде стоит ограничение считать не больше 20 минут, а дальше прерывать процесс счета с сохранением найденных результатов. Для этого ранее был использован счетчик тактов процессора TSC (кому интересно, см. мою лабу по параллельному программированию про то, как им пользоваться: http://evatutin.narod.ru/evatutin_pp_lr2_timemeasure...). Он работает хорошо, но только в том случае, если процесс монопольно занимает ядро процессора. Если же вычислительный процесс приостанавливают (например, это может делать BOINC Manager в случае, если считаются разные проекты или разные подпроекты в рамках проекта Gerasim) или вытесняют другие не-BOINC процессы, WU'шка не считается, а счетчик TSC в процессоре инкрементируется. Это приводит к тому, что реальное время CPU на вычисления в составе WU'шки оказыватся меньше 20 минут (иногда при долгом ожидании — всего несколько секунд). Чтобы исправить данную ситуацию, прерывание расчета в версии расчетного модуля 3.1.1 сделано через определение реального времени счета процесса на CPU через GetProcessTimes(). Уже сутки считается, вроде полет нормальный...

Цитата: Yura12 от 10.02.2020, 09:29

Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.

Я посмотрел ваши WU'шки с ошибками — ошибки вызваны не моим расчетным модулем, на других машинах ваши WU'шки нормально досчитались, у меня в том же эксперименте ошибок нет. Либо с машиной что-то не то, либо (что бывает на некоторых машинах и закономерность я пока понять не могу) время от времени глючит wrapper.

прерывание расчета в версии расчетного модуля 3.1.1 сделано через определение реального времени счета процесса на CPU через GetProcessTimes(). Уже сутки считается, вроде полет нормальный...

В wu_template тоже есть ограничитель времени расчёта заданий. Вы посмотрите. Оно там установлено на 24 часа (если Вы его не редактировали).

 

НазадСтраница 14 из 190Далее
BOINC.RU