Форум

Пожалуйста or Регистрация для создания сообщений и тем.

WCG переезжает

PreviousPage 2 of 2
Цитата: zlodeck от 11.09.2022, 22:02

Вот поругал WCG - и, гляди-ка, все заработало! Нужно так почаще.

На самом деле, конечно, не все. Пофиксили затыки при загрузке-выгрузке WU. Сколько оно продержится - неизвестно, но сейчас работает идеально. И на веб-серверное приложение я тоже зря накаркал - это, похоже, все-таки проблема бэкэнда: не экспортируется детальная информация по подпроектам.

Ну а этот крик души я просто оставлю здесь. В качестве иллюстрации, что терпение - небезгранично и может закончиться в любой момент.

 

Вот будьте так добры теперь не сглазить! xD

Array
Шмяка отреагировал на эту запись.
Шмяка

Чота хреновый из меня волшебник.. 🙂

В общем, побегало-побегало оно.. да и улеглось. То ли админы мышей не ловят, то ли кранчеры, терпение потерявшие, вконец сервер бедный своими скриптами заDDoSили - поди разбери! Компы стоят пустые, а на форуме снова вой да скрежет зубовный. И еще один месяц прошел.

Нужно более сильное колдунство.

Array

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Array
Цитата: XreiterD от 25.09.2022, 11:36

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Ну вот мне тоже пришло с десяток заданий опен пандемикс, проект то очухивается вроде.

Загруженные файлы:
  • Вам нужно войти, чтобы просматривать прикрепленные файлы..
Array
Цитата: XreiterD от 25.09.2022, 11:36

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Со стороны волонтеров - очень даже необходимо. Потому что ноосфера и все такое.. и наши мысли изменяют реальность. Вот я и учусь потихоньку, как управлять этим миром, не привлекая к себе внимания санитаров: то пошлю лучи поноса добра, то на вентилятор чего-нибудь.. И жить становится легче, жить становится веселей!

И да, не от разрабов, а от команды техподдержки, если уж на то пошло.

 

Цитата: SETI_Home_v8 от 25.09.2022, 12:44

Ну вот мне тоже пришло с десяток заданий опен пандемикс, проект то очухивается вроде.

Ну, они там чего-то вроде сделали. Поправили настройки балансировщика и перерезапустили один из серверов загрузки-выгрузки (их там всего 2 и один не работал). Инфа под катом, ссылка прилагается.

Спойлер

Цитата: cubes от [Sep 24, 2022 3:53:27 AM]

We have made some improvements to the WCG system today that should improve the download situation (repeated download attempts and "transient" HTTP errors in the BOINC client logs). In short, we have doubled the number of World Community Grid download servers and have begun tuning a related part of the system.

A somewhat longer explanation:

The WCG back-end system operates as a network of virtual servers on a private cloud. File-upload and download requests are received first by our load balancer, which directs each request to an available upload/download server. As designed, our system should run with two u/d servers, but one of them was affected by a mysterious network problem that has kept several of our virtual servers offline for weeks. We suspected ghosts, cursed VM images, and OpenStack glitches, but recently, our hosting provider ruled those out for us, determining the problem to lie between a physical server a router. The problem is not 100% fixed, but with the cause identified, we managed to squeeze the second u/d VM onto another physical server, and successfully brought it online about 9.5 hours ago.

Prior to that happy event, we looked into the source of the "transient" errors reported in client logs. As it happens, the BOINC client will log almost any kind of HTTP/HTTPS error status as a "transient HTTP error". We first investigated our upload/download server, but its logs showed a >99.9% rate of successful responses, and the server load was generally low. Whatever the exact errors the clients were receiving, it seemed they did not come directly there. So we moved on to the load balancer. Our load balancer runs HAProxy. Examining its operating stats showed it was the source of the BOINC "transient" errors, apparently configured to be a little over-protective of our u/d server, turning down lots of requests. Our HAProxy configuration was originally copied from IBM's, then adapted to work in the new environment, though we left many of parameters unchanged -- maximum number of simultaneous connections, etc. As it turns out, some of those settings do not work well in the Krembil WCG cluster, at least when we're at 50% download capacity. We made a cautious change or two, but with the new server online now, we will wait until the system settles into a new equilibrium to resume parameter tuning.

The changes probably won't eliminate the "transient" errors -- initial stats from HAProxy say both download servers are saturated now, but hopefully the second download server reduces the pain, and tuning our load balancer should improve things further.

Christian

/UPD/ У меня ARP на загрузке все равно виснет. Там примерно по 100Мб up/down. Выгрузка - нормально, а загрузка - нет, хотя теперь ситуация стала получше: все крупные файлы прогружаются, а вот мелкие - почему-то висят. Можно, конечно, отключить ARP и MCM, оставить только OPN, но мне интересно промониторить ситуацию в целом. Продолжаю наблюдение (с).

/UPD2/ Теперь и OPN завис.

Array

Если судить по форуму, то проект работает сейчас стабильно .. плохо. Это очень грустно. И ситуацию не изменить к лучшему, даже если посадить команду техподдержки на круглосуточное дежурство за сервера, чтобы они исправляли то, что не должно вообще происходить. Вот такое вот впечатление сформировалось на данный момент.

Array
zlodeck отреагировал на эту запись.
zlodeck

А дело может быть и не в сервере. Возможно, что сервера они сделали даже с запасом. И дисковый массив тоже правильно рассчитали. И сеть в своём дата-центре - тоже. Но вот где-нибудь между Интернетом вообще и их дата-центром, канал, может быть просто оказался забит.

Array
PreviousPage 2 of 2