Исследование свойств диагональных латинских квадратов в проектах добровольных распределенных вычислений и не только...
Цитата: Yura12 от 07.02.2020, 22:13Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль. 19 часов процессорного времени пропали.
Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль. 19 часов процессорного времени пропали.
Цитата: ale4316 от 07.02.2020, 22:21Вот об этом я и писал. Безмониторные системники тупо перезагружаю через каждые 8 часов. Пока таких длинных висяков не ловил, максимум вроде часа два было.
Вот об этом я и писал. Безмониторные системники тупо перезагружаю через каждые 8 часов. Пока таких длинных висяков не ловил, максимум вроде часа два было.
Цитата: Yura12 от 08.02.2020, 17:02К сожалению, в учёной записи http://gerasim.boinc.ru/users/viewResults.aspx?userid=11337
сегодня, 8 февраля прямо массовое завершение заданий с ошибками!
К сожалению, в учёной записи http://gerasim.boinc.ru/users/viewResults.aspx?userid=11337
сегодня, 8 февраля прямо массовое завершение заданий с ошибками!
Цитата: Yura12 от 08.02.2020, 21:42Дополнение к прошлому сообщению - посмотрел более детально, так вот с ошибкой выходят приложения Test Separator
Дополнение к прошлому сообщению - посмотрел более детально, так вот с ошибкой выходят приложения Test Separator
Цитата: evatutin от 09.02.2020, 23:26Цитата: Yura12 от 07.02.2020, 22:13Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль.
В версии расчетника 3.1.0 данная ошибка исправлена, у вас версия была 3.0.8. Если что-то подобное будет повторяться, дайте мне знать, у меня ошибок нет
Цитата: Yura12 от 07.02.2020, 22:13Только что зашёл на один из компьютеров, вот посмотрите, какая там ситуация. Картинка приложена. Диспетчер задач при этом - показывал ноль.
В версии расчетника 3.1.0 данная ошибка исправлена, у вас версия была 3.0.8. Если что-то подобное будет повторяться, дайте мне знать, у меня ошибок нет
Цитата: Yura12 от 10.02.2020, 09:29Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.
Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.
Цитата: evatutin от 14.02.2020, 08:26При построении ESODLS методом полного перебора в проекте высота комбинаторных поддеревьев в WU'шках получается существенно различной, что приводит к существенному разбросу во времени их счета. Чтобы время счета не было чрезмерно большим, в коде стоит ограничение считать не больше 20 минут, а дальше прерывать процесс счета с сохранением найденных результатов. Для этого ранее был использован счетчик тактов процессора TSC (кому интересно, см. мою лабу по параллельному программированию про то, как им пользоваться: http://evatutin.narod.ru/evatutin_pp_lr2_timemeasure...). Он работает хорошо, но только в том случае, если процесс монопольно занимает ядро процессора. Если же вычислительный процесс приостанавливают (например, это может делать BOINC Manager в случае, если считаются разные проекты или разные подпроекты в рамках проекта Gerasim) или вытесняют другие не-BOINC процессы, WU'шка не считается, а счетчик TSC в процессоре инкрементируется. Это приводит к тому, что реальное время CPU на вычисления в составе WU'шки оказыватся меньше 20 минут (иногда при долгом ожидании — всего несколько секунд). Чтобы исправить данную ситуацию, прерывание расчета в версии расчетного модуля 3.1.1 сделано через определение реального времени счета процесса на CPU через GetProcessTimes(). Уже сутки считается, вроде полет нормальный...
При построении ESODLS методом полного перебора в проекте высота комбинаторных поддеревьев в WU'шках получается существенно различной, что приводит к существенному разбросу во времени их счета. Чтобы время счета не было чрезмерно большим, в коде стоит ограничение считать не больше 20 минут, а дальше прерывать процесс счета с сохранением найденных результатов. Для этого ранее был использован счетчик тактов процессора TSC (кому интересно, см. мою лабу по параллельному программированию про то, как им пользоваться: http://evatutin.narod.ru/evatutin_pp_lr2_timemeasure...). Он работает хорошо, но только в том случае, если процесс монопольно занимает ядро процессора. Если же вычислительный процесс приостанавливают (например, это может делать BOINC Manager в случае, если считаются разные проекты или разные подпроекты в рамках проекта Gerasim) или вытесняют другие не-BOINC процессы, WU'шка не считается, а счетчик TSC в процессоре инкрементируется. Это приводит к тому, что реальное время CPU на вычисления в составе WU'шки оказыватся меньше 20 минут (иногда при долгом ожидании — всего несколько секунд). Чтобы исправить данную ситуацию, прерывание расчета в версии расчетного модуля 3.1.1 сделано через определение реального времени счета процесса на CPU через GetProcessTimes(). Уже сутки считается, вроде полет нормальный...
Цитата: evatutin от 14.02.2020, 08:30Цитата: Yura12 от 10.02.2020, 09:29Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.
Я посмотрел ваши WU'шки с ошибками — ошибки вызваны не моим расчетным модулем, на других машинах ваши WU'шки нормально досчитались, у меня в том же эксперименте ошибок нет. Либо с машиной что-то не то, либо (что бывает на некоторых машинах и закономерность я пока понять не могу) время от времени глючит wrapper.
Цитата: Yura12 от 10.02.2020, 09:29Да. В последние дни с 3.1.0 ошибок вроде уже нет. Но вот Test Separator часто выходит с ошибками, причём уже на новых заданиях.
Я посмотрел ваши WU'шки с ошибками — ошибки вызваны не моим расчетным модулем, на других машинах ваши WU'шки нормально досчитались, у меня в том же эксперименте ошибок нет. Либо с машиной что-то не то, либо (что бывает на некоторых машинах и закономерность я пока понять не могу) время от времени глючит wrapper.
Цитата: SerVal от 15.02.2020, 12:44прерывание расчета в версии расчетного модуля 3.1.1 сделано через определение реального времени счета процесса на CPU через GetProcessTimes(). Уже сутки считается, вроде полет нормальный...В wu_template тоже есть ограничитель времени расчёта заданий. Вы посмотрите. Оно там установлено на 24 часа (если Вы его не редактировали).
В wu_template тоже есть ограничитель времени расчёта заданий. Вы посмотрите. Оно там установлено на 24 часа (если Вы его не редактировали).