Форум

Пожалуйста или Регистрация для создания записей и тем.

WCG переезжает

НазадСтраница 2 из 5Далее
Цитата: zlodeck от 11.09.2022, 22:02

Вот поругал WCG - и, гляди-ка, все заработало! Нужно так почаще.

На самом деле, конечно, не все. Пофиксили затыки при загрузке-выгрузке WU. Сколько оно продержится - неизвестно, но сейчас работает идеально. И на веб-серверное приложение я тоже зря накаркал - это, похоже, все-таки проблема бэкэнда: не экспортируется детальная информация по подпроектам.

Ну а этот крик души я просто оставлю здесь. В качестве иллюстрации, что терпение - небезгранично и может закончиться в любой момент.

 

Вот будьте так добры теперь не сглазить! xD

Шмяка отреагировал на эту запись.
Шмяка

Чота хреновый из меня волшебник.. :)

В общем, побегало-побегало оно.. да и улеглось. То ли админы мышей не ловят, то ли кранчеры, терпение потерявшие, вконец сервер бедный своими скриптами заDDoSили - поди разбери! Компы стоят пустые, а на форуме снова вой да скрежет зубовный. И еще один месяц прошел.

Нужно более сильное колдунство.

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Цитата: XreiterD от 25.09.2022, 11:36

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Ну вот мне тоже пришло с десяток заданий опен пандемикс, проект то очухивается вроде.

Цитата: XreiterD от 25.09.2022, 11:36

Колдунство в данном случае необходимо не со стороны волонтеров, а от команды разрабов проекта...

Со стороны волонтеров - очень даже необходимо. Потому что ноосфера и все такое.. и наши мысли изменяют реальность. Вот я и учусь потихоньку, как управлять этим миром, не привлекая к себе внимания санитаров: то пошлю лучи поноса добра, то на вентилятор чего-нибудь.. И жить становится легче, жить становится веселей!

И да, не от разрабов, а от команды техподдержки, если уж на то пошло.

 

Цитата: SETI_Home_v8 от 25.09.2022, 12:44

Ну вот мне тоже пришло с десяток заданий опен пандемикс, проект то очухивается вроде.

Ну, они там чего-то вроде сделали. Поправили настройки балансировщика и перерезапустили один из серверов загрузки-выгрузки (их там всего 2 и один не работал). Инфа под катом, ссылка прилагается.

Спойлер

Цитата: cubes от [Sep 24, 2022 3:53:27 AM]

We have made some improvements to the WCG system today that should improve the download situation (repeated download attempts and "transient" HTTP errors in the BOINC client logs). In short, we have doubled the number of World Community Grid download servers and have begun tuning a related part of the system.

A somewhat longer explanation:

The WCG back-end system operates as a network of virtual servers on a private cloud. File-upload and download requests are received first by our load balancer, which directs each request to an available upload/download server. As designed, our system should run with two u/d servers, but one of them was affected by a mysterious network problem that has kept several of our virtual servers offline for weeks. We suspected ghosts, cursed VM images, and OpenStack glitches, but recently, our hosting provider ruled those out for us, determining the problem to lie between a physical server a router. The problem is not 100% fixed, but with the cause identified, we managed to squeeze the second u/d VM onto another physical server, and successfully brought it online about 9.5 hours ago.

Prior to that happy event, we looked into the source of the "transient" errors reported in client logs. As it happens, the BOINC client will log almost any kind of HTTP/HTTPS error status as a "transient HTTP error". We first investigated our upload/download server, but its logs showed a >99.9% rate of successful responses, and the server load was generally low. Whatever the exact errors the clients were receiving, it seemed they did not come directly there. So we moved on to the load balancer. Our load balancer runs HAProxy. Examining its operating stats showed it was the source of the BOINC "transient" errors, apparently configured to be a little over-protective of our u/d server, turning down lots of requests. Our HAProxy configuration was originally copied from IBM's, then adapted to work in the new environment, though we left many of parameters unchanged -- maximum number of simultaneous connections, etc. As it turns out, some of those settings do not work well in the Krembil WCG cluster, at least when we're at 50% download capacity. We made a cautious change or two, but with the new server online now, we will wait until the system settles into a new equilibrium to resume parameter tuning.

The changes probably won't eliminate the "transient" errors -- initial stats from HAProxy say both download servers are saturated now, but hopefully the second download server reduces the pain, and tuning our load balancer should improve things further.

Christian

/UPD/ У меня ARP на загрузке все равно виснет. Там примерно по 100Мб up/down. Выгрузка - нормально, а загрузка - нет, хотя теперь ситуация стала получше: все крупные файлы прогружаются, а вот мелкие - почему-то висят. Можно, конечно, отключить ARP и MCM, оставить только OPN, но мне интересно промониторить ситуацию в целом. Продолжаю наблюдение (с).

/UPD2/ Теперь и OPN завис.

Если судить по форуму, то проект работает сейчас стабильно .. плохо. Это очень грустно. И ситуацию не изменить к лучшему, даже если посадить команду техподдержки на круглосуточное дежурство за сервера, чтобы они исправляли то, что не должно вообще происходить. Вот такое вот впечатление сформировалось на данный момент.

zlodeck отреагировал на эту запись.
zlodeck

А дело может быть и не в сервере. Возможно, что сервера они сделали даже с запасом. И дисковый массив тоже правильно рассчитали. И сеть в своём дата-центре - тоже. Но вот где-нибудь между Интернетом вообще и их дата-центром, канал, может быть просто оказался забит.

Видимо все же дело сдвинулось с мертвой точки (тьфу-тьфу-тьфу *стучу по дереву). Час назад пришло письмо

Мы не можем выразить вам достаточной благодарности за вашу преданность науке и поддержку Grid во время перехода от IBM.

Наконец, с функционирующей инфраструктурой и решенными критическими проблемами мы готовы перезагрузить сеть мирового сообщества!

Ваша постоянная поддержка и отзывы во время перехода от IBM были бесценны для ученых, которые полагаются на нас. Вместе мы улучшили функциональность и эффективность Сети, ориентируясь на наши ограниченные технические ресурсы, и, хотя мы, безусловно, столкнулись с большим количеством препятствий и проблем, чем ожидали, мы сейчас здесь благодаря вашему терпению и настойчивости.

Есть работа, которую еще предстоит проделать. В частности, хотя мы смогли восстановить функциональность страницы "Мой вклад", и вы, возможно, заметили, что результаты за последние 2 дня теперь отражены - теперь мы должны тщательно повторить измененную версию процедуры обновления статистики, чтобы добавить обратно каждый пропущенный день. Вкладка "Результаты" на странице "Мой вклад" точно отражает статус проверки и присвоенный балл вашим рабочим подразделениям.

Когда будет доступна полная статистика, мы начнем льготный период для полос продолжительностью в один месяц, продлим все полосы, которые были активны до перехода, и, наконец, восстановим нормальное чередование полос, когда льготный период закончится.

Наконец, мы готовим заслуженный Почетный знак для всех добровольцев, которые представили действительный результат на этапе перехода и тестирования, включая вас самих. Мы также готовим еще один значок для всех гражданских ученых, которые присоединятся к сети или вернутся к ней до Нового года.

Наши партнеры по исследованиям - исследовательские группы ARP, HSTB, MCM, OPN1 и SCC - хотели бы выразить свою искреннюю благодарность за то, что помогли им пережить этот кризис. Как сами ученые Лаборатории Юрисика, а также одна из научных групп WCG, мы гордимся тем, что причисляем вас к числу наших коллег в науке, и с нетерпением ждем возможности сотрудничать с вами по мере расширения деятельности WCG. Хотя восстановление и поддержание полной пропускной способности Сети является нашей задачей, сейчас мы будем готовиться к реализации новых проектов.

Сеть мирового сообщества остается непоколебимой и неизменной в нашем видении более здорового мира. Наша миссия - ускорить развитие науки путем создания суперкомпьютера, управляемого глобальным сообществом добровольцев. WCG поддерживает исследования с открытым исходным кодом и открытыми данными, предоставляя ученым вычислительную платформу, которая позволяет им отвечать на самые насущные вопросы мира.

Спасибо вам за ваш вклад в WCG и за то, что вы позволили воплотить в жизнь, казалось бы, невозможные научные исследования,

Команда WCG в Исследовательском институте Крембил, UHN

Как то не очень. Транзиентные ошибки при скачивании, пришлось много раз делать Retry All руками. Получил задание для GPU AMD, бодро просчиталось. Задание выдано на тему Covid-19 , что вызвало некоторые смутные сомнения . Почитал на сайте, что именно считают - не полегчало.

Пойду лучше пульсары искать.

Цитата: Sid от 02.10.2022, 00:13

Как то не очень. Транзиентные ошибки при скачивании, пришлось много раз делать Retry All руками. Получил задание для GPU AMD, бодро просчиталось. Задание выдано на тему Covid-19 , что вызвало некоторые смутные сомнения . Почитал на сайте, что именно считают - не полегчало.

Пойду лучше пульсары искать.

Не знаю, но у меня вроде наладилось в день около десятка разных  заданий прилетают, а вот на сайт часто не удается зайти. Вот такая фигня вылазит.

 

НазадСтраница 2 из 5Далее
BOINC.RU