Форум

Пожалуйста или Регистрация для создания записей и тем.

Shmya Cluster - Задачи, состояние, перспективы

Страница 1 из 21Далее

Здравствуйте! :)

Новой, продолжаем начатую на предыдущем форуме ветку про Shmya Сluster, фотоальбом к которой есть в нашей группе в VK. Кратко об идее:

Создать вычислительную систему, которая бы:

  1. Содержала бы как можно меньше элементов, не участвующих в вычислениях;
  2. Была бы как можно лучше по отношению цена/производительность;
  3. Была бы и максимально полезной (из-за чего и отказались от GPU), добавляя ресурсы там, где за них самая высокая конкуренция;
  4. Позволяла бы участникам и сочувствующим распределённым вычислениям, не имеющим возможность разместить у себя дома постоянно работающий компьютер, вложиться в систему, которая приносила бы пользу науке 24/7.

И кластер получился действительно командным и, даже более того - помогали и коллеги из других команд! Первый узел был введён в эксплуатацию 21 июля 2016 года, будучи установленным в обычный системный блок, но вскоре мы с Ильёй из ИППИ РАН сделали ферму из алюминиевых уголков, которая может разместить в себе 5 узлов и перенесли узел в неё. Первые три узла были построены на основе одинаковых комплектов из:

  • Платы ASUS H81M-P
  • Процессора Core i5-4460
  • Двух планок RAM Hynix DDR3 8 Gb 1600 MHz
  • Кулера Deepcool Ice Edge Mini FS V2.0, 80мм
  • Блока питания Hipro HPE400W, 400Вт, 120мм

Система первого узла была установлена на 64-Гбайтную флэшку от SanDisk - чтобы не тратиться на HDD, однако для остальных двух узлов были взяты жёсткие диски, оказавшиеся уже ненужными в основной работе. На первый узел была поставлена Ubuntu 16.04 LTS Xenial Xerus, на остальные - тоже. Но через примерно года два, флэшку потребовалось заменить на другую и в процессе настройки была развёрнута более новая версия OS - 18.04 Bionic Beaver. Иных происшествий не было, система благополучно работала до тех пор, пока доступ к ней не оказался заблокирован из-за того, что сотрудников ИППИ РАН перестали пускать в здание из-за конфликта с другим институтом. Сейчас предпринимаются попытки высвобождения и нашего кластера и иных компьютеров кранчеров, которые было в серверной комнате ИППИ.

Но к этому моменту мы уже начали собирать средства на 4-й узел, процесс продожился в нашей группе в VK и теперь, пусть пока и виде одного узла, но Shmya Cluster cнова в работе на благо Науки и Человечества! Состоит 4-й узел из:

  • CPU AMD Ryzen 3600X
  • Платы ASUS PRIME B450M-A
  • Двух планок RAM 8 Gb DDR4 Samsung 2666 MHz
  • Кулера Deepcool GAMMAXX C40, 92 мм
  • Видеокарты MSI GeForce GT 710 LP
  • Блока питания Hipro HPE 450W, 120 мм
  • SSD WD Green 120 Gb, формата m.2 2280

Причём сравнение его производительности с другимии процессорами в Asteroids@Home привело к появлению отдельного обзора - Сравнение Ryzen 5 3600X с другими процессорами в Asteroids@Home!, а поскольку в распределённых вычислениях уже давно популярны значки за достижения в проектах - то и к регистрации Shmya Cluster на signature.statseb.fr . И сейчас его достижения можно смотреть и в численном виде благодаря BOINC Stats:

и в виде значков (правда, они выдаются далеко не во всех проектах):

... и на этом - история не заканчивается! О том, как идёт его дальнейшее строительство - в следующем сообщении!

AlexA и Шмяка отреагировали на эту запись.
AlexAШмяка

После сборки 4-го узла кластера, на счету оставалось 4280 р. (предыдущий отчёт можно увидеть вот здесь - он был создан до запуска нового форума), после чего от одного из энтузиастов распределённых вычислений поступило несколько переводов на построение 5-го узла. Кроме этого, он подарил ещё и видеокарту. Огромное ему спасибо за помощь!

Одновременно, при примерно той же стоимости остальных компонентов (от материнской платы до блока питания) цена на процессоры снижалась и, примерно неделю назад, настал момент, когда, с учётом стоимости всей конфигурации, варианты с более мощными процессорами семейства Ryzen 3000 - стали оптимальнее! (Особенно, с учётом того, что они ещё и какое-то место будут занимать). Например, если стоимость Ryzen 3600X снизилась до 15 тысяч, а стоимость остальных компонентов - осталась на уровне 15.5 тысяч, то с учётом, фактически, присутствующего разгона до 4 ГГц, мы получаем стоимость одного "гигагерцо-ядра" равной (15000 р. + 15500 р.) / (6 ядер * 4 ГГ/ядро) = 1271 р. / ГГц. Если же брать, к примеру Ryzen 3900X и компоненты для него, то мы получаем: (36000 р. + 22000 р.) / (12 ядер *  4 ГГ/ядро) = 1208 р./ГГц. Это не абсолютно точные значения, но ситуацию, они демонстрируют хорошо.

Исходя из сложившейся обстановки, для 5-го узла были заказаны следующие компоненты:

  • CPU AMD Ryzen 9 3900X
  • Материнская плата ASUS TUF B450M-PRO GAMING
  • RAM: 4 x 8Gb Samsung DDR4 PC4-21300 2666MHz CL17
  • Блок питания Hipro HPP-600W (контакты питания на плате - 24+8, у этого блока - 24+4+4)
  • SSD форм-фактора m.2: Western Digital Green m.2|SATAIII 120Gb
  • Кулер Be Quiet Shadow Rock 2

Возможно, что во вторник, 12 ноября, все компоненты уже придут.

Для прозрачности: Закупки, поступления и баланс на данный момент:

Спойлер

2019.08.12 Баланс +23000 р.

2019.08.13 Закупка комплектующих 4-го узла: -18720 р. Баланс: 4280 р.

2019.09.06 Поступление: +10000 р. Баланс: 14280 р.

2019.09.19 Поступление: +15000 р. Баланс: 29280 р.

2019.09.25 Поступление: +22500 р. Баланс: 51780 р.

2019.11.08 Закупка компонентов для 5-го узла:

Плата ASUS B450M-PRO Gaming: -8018 р.

Кулер Be Quiet Shadow Rock 2: -3530 р.

Процессор AMD Ryzen 9 3900X: -36320 р.

4 x RAM DDR4 8 Gb PC4-21300 2666MHz CL17 Samsung: -9000 р.

SSD накопитель WD Green WDS120G2G0B 120Гб, M.2 2280, SATA III: -1640 р.

Блок питания ATX 600 Вт Hipro HPP-600W: -2530 р.

Добавил для закупки: +9258 р. Баланс: 0 р.

 

Создание 5-го узла приближается к самому интересному!

Вчера прибыла материнская плата - ASUS TUF B450M-PRO Gaming, а сегодня кулер для CPU - Be Quiet! Shadow Rock 2. Доставать всё из коробок - пока не стал, только заглянул в них. Есть на что посмотреть! А пока - фотографии:

Плата:

Материнская плата для 5-го узла Shmya Cluster! AsusTek B450M-PRO Gaming

Кулер для CPU:

Кулер для CPU - Be Quiet! Shadow Rock 2.

Оправдаются ли расчёты? Как заработает всё вместе? Хватит ли подсистемы питания платы и охлаждения CPU? Следите за новостями!

В течении всей недели комплектующие то приходили, то где-то забирались в пункте выдачи. Сначала плата и кулер, а потом - и CPU с планками памяти, SSD и блоком питания:

А потом - настала суббота и время сборки и запуска! Сначала из посылки (так как она были именно прислана) была извлечена видеокарта. MSI GTX 550Ti в знаменитой "шашечной" красно-чёрной раскраске!

Затем из своей коробки была вынута материнская плата. Для узлов Shmya Cluster, для компактности компоновки "лезвий" используются платы форм-фактора mATX. В некоторой степени это ограничивает выбор, особенно если надо выбрать плату под CPU с высоким энергопотреблением, но, как минимум в последние года 2-3 он всё равно есть. Плата в электростатическом пакете:

И без него:

В наличи - 8-контактный разъём для системы питания CPU и радиаторы её укрывающие, пара слотов m.2 и PCIe, небольшой чипсет, 4 слота DRAM, набор видеовыходов, USB 3.0, 3.1... и 2.0 с PS/2!

Достаём процессор... Почему-то стало интересно сфотографировать наклейку-пломбу на коробке:

 

Центральный процессор! В торжественном, чёрном, плотном поролоне!

К процессору прилагался кулер (так вышло что "коробочная версия" стоила заметно дешевле, чем OEM, поэтому теперь есть кулер, ждущий свой CPU!). Его коробочку приоткрыл, посмотрел и закрыл обратно. Возможно, что он ещё пригодится!

Контактная площадка CPU...

И плата с ещё одного ракурса:

А потом - настала очередь кулера! То, что это не очень привычное устройство такого типа, было понятно сразу. Но когда я снова его достал и стал рассматривать, то... да это же просто шедевр инженерного дизайна!

Он сделан не просто добротно, но и красиво!

Заменил на плате backplate на пластину, "пришедшую" вместе с кулером, установил процессор и планки памяти, чтобы примерить кулер перед установкой. Выяснилось, что его высоты хватает для того, чтобы планки не убирать совсем, так как они никаких неудобств ни для каких других операций не доставляли. Плата, планки памяти и процессор:

Крупным планом:

Стоит отметить, что  плата уже была с версией BIOS, позволяющей ей опознавать AMD Ryzen 3000-серии, что позволило сейчас не обновлять его версию, а перейти в ожидание масштабного обновления микрокода, выпуск которого намечен компанией AMD на ноябрь. После сборки на узел была установлена Linux Ubuntu 18.04 LTS Bionic Beaver и BOINC, а узел был подключен сначала к нашему проекту RakeSearch (у Grasim@Home приложение - под Windows, к нему Shmya Cluster пока не подключить), а после этого - к польскому проекту Universe@Home. Сделано это было с одной стороны, для того, чтобы дать на процессор и нагрузку по вычислениям с плавающей точкой, а с другой - потому что BOINC@Poland как команда, и лично Daniel из неё, сделали очень много для проекта RakeSearch. Первые минуты работы под нагрузкой, вид сзади:

И спереди. Кулер не просто выглядит большим. Он таким и является! Чем-то напоминает Scythe Ninja 3, только ещё красивее и, кажется, тот был повыше.

Затем узел был перемещён на подоконник, подключен на время к сети для проверки того, что он корректно запустился и для набора дополнительных заданий, после чего патч-корд был вернут компьютеру-хозяину. Следующие несколько часов узел будет работать автономно, пока его снова не подключат к сети и не купят отдельный провод. :)

В RakeSearch этот узел видел под идентификатором 9375, а в Universe@Home - 539278. Во время первого запуска BOINC  benchmark, с 24 потоками были получены следующие показатели (на каждый поток):

  • Whetstone: 5132.85 million ops/sec (FLOPS-ы)
  • Dhrystone: 17311.23 million ops/sec (INTOPS-ы)

Посмотрим, что будет дальше!

AlexA и citerra отреагировали на эту запись.
AlexAciterra

Несколько новостей про наш командный кластер.

Новости технические

  • На 5-м узле, в рамках исследования способов возможного повышения производительности, обновил UEFI BIOS с версии 1804 на версию 1820, вышедшую в сентябре (ноябрьской версии BIOS, про которую AMD говорила как про важную версию с большим числом исправлений и ускоряющую производительность - как я понял пока нет). Какого-либо заметного влияния на BOINC benchmark новая версия - не оказала. На время обработки заданий относительно других компьютеров в проекте RakeSearch - тоже. (В RakeSearch сравнение можно произвести, выбрав данные по заданным компьютерам из базы и сравнив общие для них задания за интервал времени).
  • Почти всегда, при обсуждении подбора памяти для компьютеров говорят о: 1) частоте; и 2) многоканальности памяти. Иногда добавляют про тайминги. В принципе это всё верно и правильно, но из ряда обзоров следует, что в случае в новыми Ryzen (да и не только), частота памяти и тайминги влияют на производительность на уровне долей процента или нескольких процентов. И это при том, что для теста использовались приложения типа игр и различных рабочих приложений. Но разгон может быть интересен и по другой причине - для Ryzen 3000-й серии частота памяти (MCLK) и контроллера памяти (UCLK) соотносятся как 1:1 до частоты RAM 1800 МГц и 1:2 - при превышении 1800 МГц, а частота шина Infinity Fabric (FCLK) в свою очередь, по умолчанию выставляется равной UCLK (но может быть задана независимо). Если сохранять эти соотношения, то разгоном памяти можно поднять и частоту FCLK, что может ускорить работу с L3 Cache! Попробовал увеличить MCLK с 1333 МГц до 1500 МГц (т.е. "эффективная" частота памяти возросла с 2666 МГц до 3000 МГц), на BOINC Benchmark это никаким заметным образом не повлияло. Возможно, что это повлияло бы на время вычислений реальных заданий, поэтому, возможно, что к этому вопросу ещё вернёмся.
  • И, наконец, "канальность памяти"! Говорится о ней много, в магазинах продаются специально подобранные комплекты памяти... а в BIOS уже и настройки-то такой нет! Ни Single|Dual Channel как ранее было для Intel, ни Ganged|Unganged - как ранее было для AMD. Потому, что появилась настройка Memory Interleaving и, как мне кажется, это более правильное название. Попробовал отключить чередование банков памяти при записи каждого следующего слова CPU и через сутки посмотрел на результаты расчётов также в RakeSearch. Если эффект хоть какой-то и был, то сопоставимый с погрешностью измерений и скорее отрицательный. Поэтому вернул Memory Interleaving в Auto (т.к. второй вариант был Disable).

 

AlexA отреагировал на эту запись.
AlexA

Мораль какая? Всё уже в достаточной степени оптимизировано на этапе разработки? Оверклокинг - вчерашний день?

 

Цитата: AlexA от 24.11.2019, 17:32

Мораль какая? Всё уже в достаточной степени оптимизировано на этапе разработки? Оверклокинг - вчерашний день?

 

На мой взгляд, навыки разгона всё ещё актуальны и, особенно, в сочетании с навыками, специфичными для РВ, где железо как правило работает 24/7 со 100% нагрузкой. Разница только в том, что в случае с Ryzen ряд параметров выставляется самой системой, средства самодиагоности которой, видимо, за последние года 3-4 стали намного более продвинутыми. Но чтобы этот авторазгон работал, да ещё и на постоянной основе, ему надо создать условия. А это может сделать только человек.

Но о разгоне CPU я как раз и не говорил. :) В данном случае меня больше интересовала память, так как это всё, отчасти было связано с...

Новость "спортивно-статистическая"

Создание странички "Compare" в RakeSearch совершенно точно сделало жизнь интереснее! Но как и при использовании любого другого инструмента, работая с ней, надо хорошо понимать, что ты делаешь. И недавний случай - отличное тому подтверждение. Итак, как недавно было отмечено в ветке Сокет G-34, "нашему" Ryzen 9 3900X в напарники по нескольким workunit-ам попал другой компьютер также на 3900X - № 9335 участника Exnihilo Curatio, обрабатывавший свою копию заданий аж на 25% быстрее, что не могло заинтересовать. Более того, и его BOINC benchmark также был лучше. И если Whetstone в ~5.350 GFLOPS не особо бросался в глаза по сравнению с ~5.150 GFLOPS у "нашего" Ryzen, то Dhrystone в ~21.350 INTOPS против ~17.500 INTOPS - выглядел уже очень сильно. И ведь примерно во столько же он был быстрее и в вычислениях!

Причины могли быть разные:

  • Отключен SMT? Нет, вариант не проходит, так как в свойствах компьютера чётко указывалось - 24 ядра/потока. То есть SMT - отключен не был.
  • Очень сильный разгон? Не исключено! Но если наш 5-й узел разогнан с 3.8 до 4.0 ГГц, то как должен быть разогнан "их"? Чтобы быть настолько быстрее, он должен работать на частотах от 5.0 до 5.3 ГГц, а это для 3900X - судя по всем изданным обзорам - невозможно, да ещё и по всем 12 ядрам! В тоже время, если бы этот CPU был реально так разогнан, то не только Dhrystone, но и Whetstone должен был бы быть настолько же больше, а вот этого - не наблюдалось! Да, он был больше, но всего на 4%, а никак не на 25 или 30.
  • Быть может дело в RAM? Что если на нём установлены планки со сверхбыстрой памятью? И BIOS настроен так, что это даёт такую отдачу?
  • Или дело в охлаждении? А почему бы и нет? - Ведь операции с плавающей точкой - тяжелее и, кто знает - быть может во время этого бенчмарка даже с очень хорошим (водяным?) охлаждением, частота поднимается лишь едва выше 4 ГГц, а вот когда начинается работа с целыми числами, охлаждение позволяет процессору выйти на какой-то иной уровень производительности?
  • А может быть просто не задействуются все потоки? Да, включены все ядра и SMT, но просто часть потоков оставлена для чего-то ещё? Ведь часто так делают для того, чтобы быстрее выполнялись вычисления на GPU! Вряд ли, конечно, освобождено много потоков, но так может быть много и не надо?
  • И, кстати - на "нашем" Ryzen - установлена Linux Ubuntu, а на "его" - Microsoft Windows! Так может быть дело в том, что приложение под Windows просто быстрее считает? Правда, тогда непонятно почему на Core i5-3570K, на котором оно компилировалось, оно и под Linux и под Windows - работает одинаково, а вот на Ryzen - решило работать с такой разницей?
  • А может быть, действуют все эти факторы, каждый понемногу?

И, после этого, начались эксперименты, описанные в технических новостях чуть выше. :) Одновренно я написал Exnihilo Curatio письмо с просьбой рассказать чуть больше о его столь интересном компьютере. Эксперименты, как вы уже знаете из предыдущих сообщений, были интересными, но сколь бы то ни было заметно, производительность не повысили. А пока шли расчёты, я попробовал присмотреться к статистике этого компьютера. Появился он недавно, всего на несколько дней раньше 5-го узла Shmya Cluster и в статистике на BOINC Stats был зарегистриован всего в двух проектах - RakeSearch и PrimeGrid!

Но PrimeGrid - это, в основном, GPU-проект. А что у этого компьютера в заданиях в нём? Компьютер был найден в этом проекте, его результаты пролистаны (не полностью - их было очень много, но где-то с десяток страниц) и там были только задания для GPU. Хорошо! А взглянем тогда на его задания в RakeSearch, что мы там увидим? Да, там могут быть только CPU-задания... но вот сколько их? И их в состоянии In Progress было всего 13 штук! Что хорошо согласовывается с ситуацией когда работает только 12 потоков, а 13 в состоянии In Progress отображается только потому, что один из результатов уже обработан, но компьютер ещё не отчитался проекту о его выполнении.

А через пару-тройку часов пришло ответное письмо, в котором был написано примерно следующее: "Это обычный 3900X на материнской плате Gigabyte X570 Aorus Elite motherboard с 32GB DDR4-3200 RAM. С водяным охлаждением, но без разгона. BOINC запущен на 50% от общего числа CPU, так что сейчас он вычисляет RakeSearch в 12 потоков".

Сенсации не состоялось, но было интересно!

AlexA отреагировал на эту запись.
AlexA

Шерлок Холмс и Эркюль Пуаро :)

 

Цитата: hoarfrost от 24.11.2019, 19:07

Но если наш 5-й узел разогнан с 3.8 до 4.0 ГГц, то как должен быть разогнан "их"?

А вы свой как разгоняли? Вручную зафиксировали множитель на 40? У меня в авторазгоне частота в среднем держится в районе 4100. На этих процах по-моему вручную гнать смысла нет, лучше отдать этот процесс на волю авторазгона. Главное обеспечить нормальное охлаждение.

Цитата: PinkFloyd от 24.11.2019, 20:01
Цитата: hoarfrost от 24.11.2019, 19:07

Но если наш 5-й узел разогнан с 3.8 до 4.0 ГГц, то как должен быть разогнан "их"?

А вы свой как разгоняли? Вручную зафиксировали множитель на 40? У меня в авторазгоне частота в среднем держится в районе 4100. На этих процах по-моему вручную гнать смысла нет, лучше отдать этот процесс на волю авторазгона. Главное обеспечить нормальное охлаждение.

Как и в случае с 4-м узлом (на 3600X) использовал автоматический разгон со стороны BIOS, включив его в нём. 3600X был разогнан до 4100 МГц, 3900X - до 4000 МГц.

Страница 1 из 21Далее
BOINC.RU