ИИ-ускоритель Intel Gaudi2 оказался на 55 % быстрее Nvidia H100 в тестах Stable Diffusion 3

Bolat Mukashev

8 месяцев назад

Компания Stability AI, разработчик популярной модели генеративного ИИ Stable Diffusion, провела сравнительный анализ производительности модели Stable Diffusion 3 на известных ускорителях вычислений для центров обработки данных, таких как Nvidia H100 Hopper, A100 Ampere и Intel Gaudi2. Согласно заявлению Stability AI, ускоритель Intel Gaudi2 продемонстрировал производительность примерно на 56 % выше, чем у Nvidia H100.

В отличие от H100, который является суперскалярным графическим процессором с тензорными CUDA-ядрами, Gaudi2 специально разработан для ускорения генеративного ИИ и крупных языковых моделей (LLM). В тестах использовались кластеры, состоящие из по 16 таких ускорителей, при постоянном размере батча (количество тренировочных объектов) в 16 на каждый ускоритель (всего 256). Системы на базе Intel Gaudi2 способны генерировать 927 изображений в секунду, в то время как у ускорителей H100 и A100 этот показатель составляет соответственно 595 и 381 изображение в секунду.

При увеличении количества кластеров до 32 и числа ускорителей до 256, а также при размере батча 16 на каждый ускоритель (общий размер 4096), массив Gaudi2 способен генерировать 12 654 изображения в секунду, что составляет 49,4 изображения в секунду на ускоритель. В случае с ускорителями A100 Ampere этот показатель составляет 3992 изображения в секунду или 15,6 изображения в секунду на устройство.

Стабильность производительности ускорителей ИИ измерялась с использованием фреймворка PyTorch. Однако при использовании оптимизации TensorRT чипы A100 создают изображения до 40 % быстрее, чем Gaudi2. Однако исследователи в компании Stability AI ожидают, что при дальнейшей оптимизации Gaudi2 превзойдет A100. Компания считает, что более быстрый интерконнект и больший объем памяти (96 Гбайт) делают решения Intel вполне конкурентоспособными и планирует использовать ускорители Gaudi2 в своей облачной платформе Stability Cloud.

Согласно сообщению от Stability AI, в более ранних тестах модели Stable Diffusion XL с использованием фреймворка PyTorch ускоритель Intel Gaudi2 генерировал изображение размером 1024 × 1024 за 3,2 секунды, что оказалось быстрее, чем при использовании PyTorch на ускорителе Nvidia A100 (3,6 секунды) и оптимизации TensorRT на том же устройстве (2,7 секунды).

Onleihe — это цифровая библиотека Гёте-Института (eLibrary).