Форум

Уважаемые посетители. В связи с массовой регистрацией на форуме спамовых и рекламных аккаунтов нам пришлось установить некоторые защитные программные блоки. Если при регистрации на Ваш почтовый адрес не придет письмо с паролем для активации учетной записи, прошу написать на адрес tpp12@rambler.ru или boinc.ru@yandex.ru. Я активирую учетку в ручную и вышлю Вам временный пароль.
Пожалуйста or Регистрация для создания сообщений и тем.

Проект Gerasim@Home

 

Я вот очень обеспокоен, а не пропадут и не повредятся ли файлы результатов расчётов в связи с этими нестабильностями на сервере.

 

 

Array
Цитата: Yura12 от 21.09.2021, 17:05

Я вот очень обеспокоен, а не пропадут и не повредятся ли файлы результатов расчётов в связи с этими нестабильностями на сервере.

К сожалению, все может быть :(.

На данный момент ошибки в расчетах впервые я заметил вчера, когда занимался анализом результатов первых посчитанных WU'шек нового эксперимента (см. картинки). 2 часа сидел в отладке (ошибка вылезает не сразу, ее приходится ждать около получаса при анализе нескольких тысяч файлов), думал где в коде накосячил, хотя до этого все работало, а потом добрался до исходных файлов с сервера Герасима и все стало ясно: бьются некоторые байты :(. В одном случае в числе вместо одной цифры стоит какой-то нечитаемый символ, который блокнот отобразил как ?, в другом — вместо пробела стоит !. Ошибок валидации нет, т.е. расчетниками считается все правильно, ошибка происходит при манипуляции с посчитанными данными на сервере проекта. Надо разбираться... Со своей стороны буду мониторить ситуацию и отписываться о том, что меняется.

Загруженные файлы:
  • Вам нужно войти, чтобы просматривать прикрепленные файлы..
Array

После обработки первой партии WU'шек нового эксперимента спектр диагональных трансверсалей в ДЛК порядка 12 расширился с 17501 до 17549 элементов. Найдено 3 сбойных WU'шки из 3998, в составе которых 4 битых байта (а может быть байтых бита?). На самом деле конечно же, если без шуток, ситуация очень неприятная...

 

Спойлер
PS. Сегодня хоронили одного профессора с моей кафедры, у которого я в свое время учился, у меня в ВК есть краткий некролог по этому поводу, хороший был дядька... Несколькими годами до умер еще один, у которого мы учились информатике на первом курсе — программировали упрощенную модель ЭВМ в машинных кодах. Неудобно, но интересно с позиции расширения кругозора. Так вот в ней был режим, когда иногда она врала в результирующих данных и это надо было обнаружить. Кому это надо... Прошло 20 лет и теперь мы сталкиваемся с той же проблемой, но на реальном железе. Вот такая забавная штука — история, которая имеет особенность повторяться...

Array
citerra отреагировал на эту запись.
citerra

Правильно ли я понимаю, что одни и те же процессоры нормально работают в составе одной машины и работают с ошибками в рамках другой? Если да, то какая конфигурация "глючащей" машины?

Array

Ну и я вставлю свои 5 копеек: в далёкие 90-е, я был удивлен: почему бухгалтер, имея 386-ю машину , считает на калькуляторе? Оказывается у него на машине был такой рассадник вирусов, что считать зарплату людям было опасно для предприятия, ибо от результатов бухгалтер мог поседеть.

Array
SerVal отреагировал на эту запись.
SerVal
Цитата: hoarfrost от 21.09.2021, 23:19

Правильно ли я понимаю, что одни и те же процессоры нормально работают в составе одной машины и работают с ошибками в рамках другой? Если да, то какая конфигурация "глючащей" машины?

Процессоры безошибочно работают на двух машинках. с памятью AMD. Материнки - Асус чипсет x570.

Стоит только поставить в машинку память Patriot, тут же тест Линпак проходит только в конфигурации Standart.

И то не всегда. Ну, и начинают появляться ошибки.

Сейчас на сервере память 2х8 GB АМД + AMD Ryzen 5 3500 6-Core Processor. Все тесты пройдены и должно работать без ошибок.

== 16 GB на сервере, конечно мало.

Итого: вынул из рабочей станции память Патриот,  выехал в гарантийный отдел Регарда.

p.s

В Регарде приняли память на проверку. Две планки по 16 ГБайт. Срок проверки - 20 дней. Пришлют СМС-ку.

Array

SerVal,  проверяли официальный список поддерживаемой асусом памяти для этой платы, а то тогда все формальности будут производителями соблюдены и память не совместима, как вариант. БИОС последний-предпоследний пробовали там? И эти пэтриоты в джейдек спецификациях, а не ХМР пробовали?

Array
SerVal отреагировал на эту запись.
SerVal

проверяли официальный список поддерживаемой Асусом памяти для этой платы ?

Нет, не проверял. Да и всё равно, денег на дорогую память не было. (например на Круциал). На что хватило, то и взял.

БИОС для матери "Асус Рог Херо 8"(сервер)  - последний. Обновил перед установкой 12-ти ядерного Райзена.

БИОС  для "Асус Рог Стрикс Х570-Е Гейминг" (рабочая машинка) стоит от производителя материнки. Все процессоры этому биосу известны, включая "Вермеер".

И эти пэтриоты в джедек спецификациях, а не ХМР?

В джедек-ах. А последний - 3200 GHz или 3600 GHz - в ХМР. Перепробовал всё. В том числе, ручную настройку частот, вольтаж и  задержки(CAS, RAS..).

== Windows уже выбрасывает предупреждения "Мало памяти..".  Надеюсь, 20 дней потерпит. 🙂

Сижу на сервере. Рабочая машинка отдыхает без памяти.

Всем привет и хорошего настроения. 🙂

Array

SerVal, нашёл таки вашу память в Memory QVL листе к "Асус Рог Стрикс Х570-Е Гейминг" на 17-й странице их pdf. Вот ссылка на pdf у асуса

ps: Я так понял, что у асуса память проверяется не под конкретную плату, а чипсет, х570 в данном случае. Вот почему так много проверенной =)

Array
SerVal отреагировал на эту запись.
SerVal

Забрал данные с сервера двумя порциями (вчера и сегодня), постобработал, ошибок с выбитыми байтами пока больше нет. Очень похоже на то, что виновата либо память, либо ее работа в связке с матерью/чипсетом/процом. Спектр диагональных трансверсалей для ДЛК порядка 12 расширен до 17574 элементов, расширение происходит в его средней части (сюда видимо попадает какой-то редкий тип квадратов), низ и верх не меняются, хотя значения там находятся. Непрерывная часть спектра состоит из элементов в диапазоне 130 — 15480.

 

PS. Тут мы с Александром А. (но не с AlexA :), не путать!) выполнили небольшой анализ, оказалось, что выбитые байты отличаются от правильных на 1 бит каждый (в одном случае это 0-й бит, в другом — 3-й). Такие ошибки действительно похожи на память, а не на какие-то еще более глобальные глюки. Хотя в этом случае с полной уверенностью утверждать нельзя, надо пробовать...

Загруженные файлы:
  • Вам нужно войти, чтобы просматривать прикрепленные файлы..
Array
PinkFloyd и citerra отреагировали на эту запись.
PinkFloydciterra