Тестирование энергоэффективности и скорости вычислений видеокарт для майнинга в BOINC проектах

Статья размещается на сайте с разрешения автора — S.Buzun. Кроме того, Сергей предоставил архив с данными, по которым писалась статья. Возможно кто-то захочет посмотреть исходные данные. Скачать можно ЗДЕСЬ.
Оригинал статьи находится по ссылке: https://promtechautomat.ru/articles/boinc.php

На момент написания статьи идет криптозима (весна 2025 года). Количество предложений видеокарт от майнеров на популярных площадках увеличивается, и сейчас неплохое время для апгрейда оборудования. Материал этой статьи будет полезен для сравнения характеристик видеокарт для майнинга в проектах распределенных вычислений на платформе BOINC.

Кроме того, Сергей предоставил данные, по которым писалась статья, архив с ними можно скачать по ссылке.

Подробно о добровольных вычислениях и проектах можно почитать здесь: 

https://ru.wikipedia.org/wiki/Добровольные_вычисления

https://ru.wikipedia.org/wiki/BOINC

Характеристики графических процессоров, которые будут протестированы, приведены в таблице 1. Данные для таблицы взяты с сайта techpowerup.com, как показали эксперименты в реальности тактовая частота работы графических процессоров отличается от приведенной в открытых источниках. Также по графическому процессору CMP 90HX в таблице завышен показатель TDP, как показали замеры, энергопотребление ограничено мощностью 250 Вт. Возможно попался экземпляр с модифицированным биосом.

Таблица 1 – Характеристики графических процессоров

Название процессораNvidia CMP 170HX (GA100-105F-A1)Nvidia P102-100 (GP102-100-A1)Nvidia 1080ti Duke (GP102-350-K1-A1)Nvidia CMP 90HX (GA102-100-A1)
АрхитектураAmperePascalPascalAmpere
Технологический процесс производства, нм716168
Унифицированных шейдерных процессоров, шт4480320035846400
Текстурных блоков, шт280200224200
Блоков растеризации, шт128808880
Потоковых мультипроцессоров, шт70252850
Ядра Tensor, шт28000200
Тактовая частота номинальная, МГц1140158214811500
Тактовая частота максимальная, МГц1410168315821710
Пропускная способность памяти, ГБ/с2900440,3484,4760,3
Производительность FP16 (половинной точности), TFLOPS50,5300,16830,177221,89
Производительность FP32 (одинарной точности), TFLOPS12,63010,7711,3421,89
Производительность FP64 (двойной точности), TFLOPS6,3170,33660,35440,342
Требования по теплоотводу, TDP, Вт250250250320

Характеристики тестового стенда приведены в таблице 2.

Таблица 2 – Состав тестового стенда

Операционная системаMicrosoft Windows 10 Pro 10.0.19045.5608 (Win10 22H2 2022 Update)
Тип ЦПQuadCore Intel Core i5-6600K, 3700 MHz (37 x 100)
Системная платаAsus B250 Mining Expert
Системная памятьKingston HyperX KHX2400C14D4/16G 2шт
Блок питанияIBM DPS-2980AB 2980W

Установка драйверов

В Windows видеокарты CMP 170HX и P102-100 одновременно работать с BOINC отказались, видимо это связано с тем, что для этих видеокарт драйвера находятся в разных установочных пакетах (для CMP 170HX требуется Datacenter driver for Windows).

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Ниже приводится описание, как установить драйверы для видеокарты CMP 170HX в Windows 10 Pro.

Уменьшение влияния на производительность графического процессора центрального процессора

Видеокарта CMP 170HX является урезанной версией ускорителя NVIDIA A100, однако производитель не включил отдельный драйвер в установочный пакет, и поиск драйвера на сайте nvidia ни к чему не приведет. Чтобы установить драйвер для CMP 170HX, необходимо скачать Data Center Driver for Windows с поддержкой устройств A-series. На момент написания этого обзора, самая новая версия этого драйвера 572.61-data-center-tesla-desktop-win10-win11-64bit-dch-international. Далее нужно распаковать файлы драйвера в папку (например, программой 7zip) и через диспетчер устройств указать Поиск и установка драйвера вручную

Если вы все сделали правильно, в диспетчере устройств появится видеоадаптер NVIDIA A100.

Настройка системы охлаждения графического процессора

Современные графические процессоры имеют встроенную температурную защиту от перегрева. При приближении температуры кристалла к критической, происходит динамическое изменение частоты работы процессора (частота снижается), за счет этого температура не поднимается выше. Также существует лимит по энергопотреблению, который также имеет связь с температурой кристалла. Чтобы исключить влияние температуры на производительность, удобнее всего вручную задать скорость вращения вентиляторов системы охлаждения, проверив под нагрузкой, что максимальная температура кристалла графического процессора меньше критической и тактовая частота постоянная (равна максимальной). Например, для работы CMP 170HX с максимальной производительностью, температура кристалла должна быть меньше 73 градусов. Уже про 74 градусах максимальная тактовая частота будет ниже 1410 МГц.

Уменьшение влияния на производительность графического процессора центрального процессора

Различные задачи BOINC нагружают центральный процессор по-разному. При оценке производительности графического процессора (GPU), нужно убедиться, что центральный процессор (CPU) не является узким местом вычислительной системы. При работе приложений BOINC, использующих видеокарту, загрузка центрального процессора не должна быть 100%. Особенно это актуально если в системе несколько видеокарт и проект активно использует ресурсы центрального процессора. Например, при использовании тестового стенда и 5 видеокарт Zotac P102-100 для расчетов заданий проекта Einstein@Home, время выполнения задания выше на 50%, из-за перегрузки центрального процессора. При использовании 3-х видеокарт Zotac P102-100, в проекте Einstein@Home перегрузки процессора Intel Core i5-6600K уже не происходит, как результат — производительность вычислительной системы с тремя видеокартами выше, чем с пятью. Если центральный процессор не является узким местом вычислительной системы, время выполнения задания и время ЦП в статистике задания должны быть примерно равны (для All-Sky Gravitational Wave search on O3), и загрузка процессора меньше 100%.

CMP170hX, GPU 1410, Memory 1458, i5-6600, версия драйвера 572.61
ПроектПриложениеЗаданиеОбъем вычислений, GFLOPsЗатрачено времени, сПотребление GPU, ВтИспользование GPU, %Использование CPU, %Cobblestones за заданиеКвт*ч на заданиеCobblestones/сCobblestones/чCobblestones/Квт*ч
Einstein@HomeAll-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)h1_0201.80_O3aLC01Cl1In0 __O3ASBu_202.00Hz_685211 440 0001845102,473,936,0200000,05248010,8439024381098
PrimeGridGenefer 17 Mega 4.06 (OCLcudaGFN17MEGA)genefer17mega_21948592629 688202109,283,018,1510,490,0061252,53909883351
PrimeGridGenefer 18 4.04 (OCLcudaGFN18)genefer18_225373750110 235545143,091,510,41895,170,0216443,481251987562
PrimeGridGenefer 19 4.04 (OCLcudaGFN19)genefer19_227978953484 6561691187,997,68,683330,0882534,931774094422
PrimeGridGenefer 20 4.04 (OCLcudaGFN20)genefer20_2166443521 855 3795607225,3398,76,6350900,3509456,262253099987
PrimeGridGenefer 21 4.04 (OCLcudaGFN)genefer21_1952920908 373 26922049245,2398,84,51727671,5019577,8428208115028
P102-100 Zotac, GPU 1860, Memory 5508, i5-6600k, версия драйвера 384.74
ПроектПриложениеЗаданиеОбъем вычислений, GFLOPsЗатрачено времени, сПотребление GPU*, ВтИспользование GPU, %Использование CPU, %Cobblestones за заданиеКвт*ч на заданиеCobblestones/сCobblestones/чCobblestones/Квт*ч
Einstein@HomeAll-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)h1_0201.80_O3aLC01Cl1In0__O3ASBu_202.00Hz_356961 440 0003478153,866,632,6200000,1485505,7520702134635
PrimeGridGenefer 17 Mega 4.06 (OCLcudaGFN17MEGA)genefer17mega_21951631529 689514180,381,611,8510,490,0257370,99357519835
PrimeGridGenefer 18 4.04 (OCLcudaGFN18)genefer18_225374024110 2351576226,193,910,61895,170,0989761,20432919148
PrimeGridGenefer 19 4.04 (OCLcudaGFN19)genefer19_227981822484 6945341245,096,36,483330,3635461,56561722921
PrimeGridGenefer 20 4.04 (OCLcudaGFN20)genefer20_2166452111 855 37917431245,397,35,8350901,1876182,01724729547

* У P102-100 отсутствует измерение потребляемой мощности с помощью Afterburner, соответственно эти данные заполнялись с помощью пересчета % мощности GPU и значения TDP в потребляемую мощность. Так как величина TDP не является максимальным теоретическим тепловыделением процессора, то полученные при пересчете значения не будут точными. Для 1080ti есть данные и по потребляемой мощности в Ваттах и по мощности GPU в %. Мощность, измеренная в Ваттах примерно на 11-12% больше чем рассчитанная мощность (Мощность GPU в % умножить на TDP и разделить на 100%). Для точного измерения потребляемой мощности требуются внешние приборы, эта задача выходит за рамки настоящего исследования.

1080ti Duke, GPU 1936, Memory 5005, i5-6600k версия драйвера 560.94
ПроектПриложениеЗаданиеОбъем вычислений, GFLOPsЗатрачено времени, сПотребление GPU, ВтИспользование GPU, %Использование CPU, %Cobblestones за заданиеКвт*ч на заданиеCobblestones/сCobblestones/чCobblestones/Квт*ч
Einstein@HomeAll-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_653841 440 0003140146,066,631,8200000,1273516,3722930157046
PrimeGridGenefer 17 Mega 4.06 (OCLcudaGFN17MEGA)genefer17mega_21941038129 688512178,976,221,7510,490,0254411,00358920066
90HX, GPU 1890-1575, Memory 9501, i5-6600k версия драйвера 560.94 bios 94.02.74.00.01 лимит мощности 250 Вт
ПроектПриложениеЗаданиеОбъем вычислений, GFLOPsЗатрачено времени, сПотребление GPU, ВтИспользование GPU, %Использование CPU, %Cobblestones за заданиеКвт*ч на заданиеCobblestones/сCobblestones/чCobblestones/Квт*ч
Einstein@HomeAll-Sky Gravitational Wave search on O3 1.16 (GW-opencl-nvidia-3)h1_0202.80_O3aLC01Cl1In0__O3ASBu_203.00Hz_653861 440 0002088180,180,034,3200000,1044799,5834483191426
PrimeGridGenefer 17 Mega 4.06 (OCLcudaGFN17MEGA)genefer17mega_22848048429 691224211,185,414,3510,490,0131372,28819638821
PrimeGridGenefer 21 4.04 (OCLcudaGFN)genefer21_229505960c130 856667217,894,69,92700,20,0403494,051457466922
PrimeGridGenefer 19 4.04 (OCLcudaGFN19)genefer19_227986516484 7572524246,199,18,183350,1725193,301188868910
PrimeGridGenefer 20 4.04 (OCLcudaGFN20)genefer20_2166460631 855 6798880247,199,26,3351000,6094263,951423057595

Затраты энергии на выполнение задания на CMP 170HX в 3,9 раза меньше чем у графических процессоров GeForce 10 серии. Скорость вычислений CMP 170HX в различных приложениях BOINC выше в 3,1 раза по сравнению с 1080ti и P102-100.

Затраты энергии на выполнение задания CMP 90HX в 1,9 раза меньшее чем у графических процессоров GeForce 10 серии Скорость вычислений CMP 90HX в различных приложениях BOINC выше в 2 раза по сравнению с 1080ti и P102-100.

На сайте проекта PrimeGrid имеется информация о относительной скорости графических процессоров (вычисляется автоматически на основе присланных результатов) https://www.primegrid.com/gpu_list.php#GFN20. К сожалению, там нет информации по графическим процессорам для майнинга. Приняв допущение, что производительность P102-100 примерно равна производительности 1080ti, получаем следующий рейтинг по относительной скорости (для задач Genefer 20 4.04 (OCLcudaGFN20).

№ п.п.Относительная скоростьМодельВремя вычисления задания объемом 1855379 GFLOPS, с
11,000NVIDIA GeForce RTX 4090
20,795NVIDIA GeForce RTX 4080
30,620NVIDIA GeForce RTX 4070 Ti SUPER
40,619NVIDIA GeForce RTX 4070 Ti
50,526NVIDIA GeForce RTX 4070 SUPER
60,444NVIDIA CMP 170HX5607
70,391NVIDIA GeForce RTX 4060 Ti
80,358NVIDIA GeForce RTX 4070 Laptop GPU
90,346NVIDIA GeForce RTX 3080
100,333NVIDIA L4
110,280NVIDIA CMP 90HX8880
120,263NVIDIA GeForce RTX 4060
130,260NVIDIA GeForce RTX 2080 Ti
140,255NVIDIA GeForce RTX 3070 Ti
150,235Tesla V100-FHHL-16GB
160,218NVIDIA GeForce RTX 3070
170,209NVIDIA GeForce RTX 3060 Ti
180,186NVIDIA TITAN V
190,183NVIDIA GeForce RTX 2060 SUPER
200,162NVIDIA GeForce RTX 3060
210,144NVIDIA RTX A4000
220,143NVIDIA P102-10017431
230,143NVIDIA GeForce GTX 1080 Ti
240,141NVIDIA GeForce RTX 3060 Laptop GPU
250,139NVIDIA GeForce RTX 2060
260,132Tesla P40
270,124NVIDIA GeForce GTX 1660 SUPER
280,122NVIDIA GeForce GTX 1660 Ti
290,095NVIDIA GeForce RTX 3050
300,077NVIDIA GeForce GTX 1060 6GB
310,064NVIDIA GeForce GTX 1060 3GB
320,058NVIDIA GeForce GTX 1650

В рейтинге CMP 90HX заметно ниже NVIDIA GeForce RTX 3080, разница в 23% объясняется уменьшением лимита потребляемой мощности до 250 Вт, скорее всего при одинаковом лимите энергопотребления, время вычисления заданий тоже будет одинаковым.

Графический процессор CMP 170HX также занял достойное место в рейтинге. При вычислениях задач Genefer 20 4.04 потребляемая мощность практически равна значению TDP. У топа из рейтинга — GeForce RTX 4090 TDP равно 450 Вт, у CMP 170HX измеренное потребление – 225 Вт. Соответственно, если сравнить скорость при одинаковом энергопотреблении, производительность двух ускорителей CMP 170HX будет ниже на 12% производительности одной карты GeForce RTX 4090. Тут нужно отметить, что 170HX выпускается по техпроцессу 7 нм, а RTX 4090 по техпроцессу 5нм.

Понравилась статья? Поделиться с друзьями:
BOINC.RU
Добавить комментарий