От масштаба/масштабирования к масштабу: Spectrum-XGS – неизбежный выбор

Sep 25, 2025

Оставить сообщение

Современные центры обработки данных ИИ сталкиваются с двумя основными узкими местами при масштабировании, а традиционные модели-масштабирования и масштабирования-с трудом удовлетворяют требованиям гига{2}}масштабного ИИ:

Масштабируйте-ограничения: Достигается путем обновления отдельных систем или стоек (например, за счет увеличения количества графических процессоров или повышения производительности одного-устройства), но ограничивается ограничениями мощности инфраструктуры, например водяного охлаждения. Существующие центры обработки данных имеют физические пороговые значения потребляемой мощности и тепловыделения, что предотвращает бесконечное увеличение плотности вычислений на стойку или центр обработки данных.

Масштабируйте-ограничения: расширяется за счет добавления стоек и серверов для масштабирования кластеров, но ограничивается физическим пространством в одном месте, что накладывает жесткие ограничения на мощность оборудования.

Чтобы преодолеть эту дилемму, NVIDIA предлагает новое измерение «масштабирования-в масштабе», оптимизирующее сетевое взаимодействие между географически разбросанными центрами обработки данных, чтобы заставить распределенные кластеры ИИ работать как единое целое. Основатель и генеральный директор NVIDIA Дженсен Хуанг описывает эту межрегиональную суперфабрику искусственного интеллекта как ключевую инфраструктуру для промышленной революции искусственного интеллекта, а Spectrum-XGS — как ключевой инструмент реализации технологий.

Spectrum-XGS

Основные технологии Spectrum-XGS

Spectrum-XGS — это не совершенно новая аппаратная платформа, а развитие существующей экосистемы NVIDIA Spectrum-X Ethernet. С момента своего запуска в 2024 году Spectrum-X обеспечил в 1,6 раза более высокую производительность генеративной сети искусственного интеллекта, чем традиционный Ethernet, благодаря коммутаторам SN5600 архитектуры Spectrum-4 и процессорам BlueField-3, став основным выбором для центров обработки данных искусственного интеллекта, использующих графические процессоры NVIDIA. Прорыв в Spectrum-XGS заключается в трех алгоритмических инновациях и синергии аппаратного обеспечения, которые решают проблемы задержек связи, перегрузок и синхронизации в межрегиональных кластерах графических процессоров.

1.Основные алгоритмы: динамическая адаптация к характеристикам сети на больших-расстояниях.

Ядро Spectrum-XGS — это набор "алгоритмов оптимизации сети-с учетом расстояния", которые анализируют ключевые параметры связи между-центрами обработки данных-в реальном-времени (расстояние, модели трафика, уровни перегрузки, показатели производительности) и динамически корректируют сетевые политики:

Дистанционное-Адаптивное управление перегрузками:В отличие от традиционной унифицированной обработки всех соединений Ethernet, алгоритмы Spectrum-XGS автоматически корректируют пороговые значения перегрузки на основе фактического расстояния между центрами обработки данных (в настоящее время поддерживаются развертывания до сотен километров), избегая потери или накопления пакетов при передаче на большие-расстояния.

Точное управление задержкой:Благодаря -точной-детализированной адаптивной маршрутизации он устраняет дрожание задержек при повторной передаче пакетов в традиционных сетях. Джиттер является критической опасностью в кластерах искусственного интеллекта: если один графический процессор отстает из-за задержки, все взаимодействующие графические процессоры должны ждать, что напрямую влияет на общую производительность.

Конец-до-конца телеметрии: Сбор-в режиме реального времени полных-данных о производительности каналов от графических процессоров до коммутаторов и перекрестных-каналов-центров обработки данных обеспечивает обратную связь на уровне миллисекунд-для алгоритмических корректировок, гарантируя динамическое соответствие состояния сети требованиям рабочей нагрузки ИИ.

2. Синергия аппаратного обеспечения: использование фундамента высокой-пропускной способности экосистемы Spectrum-X

Spectrum-XGS достигает оптимальной производительности в сочетании со специальным оборудованием NVIDIA:

Спектральные-переключатели X: В качестве базовой магистрали сети, обеспечивающей высокую плотность портов и низкую-пересылку.

ConnectX-8 SuperNIC: выделенный сетевой адаптер AI-800 Гбит/с для высокоскоростной-передачи данных между графическими процессорами и коммутаторами.

Архитектурное оборудование Блэквелл: например, графические процессоры B200 и суперчипы GB10, глубоко интегрированные со Spectrum-XGS для сокращения меж-меж-задержек. NVIDIA проверена с помощью тестов NCCL (библиотека коллективных коммуникаций): Spectrum-XGS повышает производительность связи между-графическими процессорами-центров обработки данных в 1,9 раза, одновременно контролируя сквозную-до-задержку примерно в 200 миллисекунд-уровень, который кажется отзывчивый и-без задержек при взаимодействии с пользователем, отвечающий-требованиям в реальном времени для вывода ИИ.

Полная-оптимизация стека для обучения ИИ и эффективности вывода с помощью Spectrum-XGS

Spectrum-XGS — это не изолированная технология, а ключевое дополнение к полной-экосистеме искусственного интеллекта NVIDIA. В этом выпуске NVIDIA также представила улучшения производительности на программном-уровне, которые взаимодействуют со Spectrum-XGS для совместной работы аппаратных-алгоритмов-программного обеспечения:

Обновление программного обеспечения Dynamo: оптимизирован для архитектуры Blackwell (например, систем B200) для повышения производительности вывода моделей ИИ до 4 раз, что значительно снижает потребление вычислений для вывода больших моделей.

Технология спекулятивного декодирования: использует небольшую черновую модель для заранее прогнозирования следующего выходного токена основной модели ИИ, сокращая объем вычислений основной модели и повышая производительность вывода еще на 35%. Это особенно подходит для сценариев разговорного вывода в больших языковых моделях (LLM).

Директор отдела ускоренных вычислений NVIDIA Дэйв Сальватор заявил, что основной целью этих оптимизаций является масштабирование амбициозных приложений агентного ИИ. Будь то обучение моделей с большим количеством -параметров или поддержка сервисов искусственного интеллекта для миллионов одновременных пользователей, сочетание Spectrum-XGS и экосистемы программного обеспечения обеспечивает предсказуемую производительность.

Первые применения и влияние Spectrum на отрасль-XGS

Первые пользователи: пионеры CoreWeave, пересекающие-суперфабрику доменного искусственного интеллектаПоставщик облачных услуг графического процессора CoreWeave одним из первых внедрил Spectrum-XGS. Соучредитель и технический директор компании-Питер Саланки отметил, что эта технология позволит клиентам получить доступ к возможностям ИИ гига{3}}масштаба, ускоряя прорывы во многих отраслях. Например, поддержка сверх-крупномасштабных-проектов в области ИИ, таких как инициатива Stargate от Oracle, SoftBank и OpenAI.

Тенденции отрасли: Ethernet заменяет InfiniBand в качестве основного направления сети искусственного интеллектаХотя в 2023 году InfiniBand занимала около 80% рынка серверных сетей искусственного интеллекта, отрасль быстро переходит на Ethernet. Решение NVIDIA разработать Spectrum-XGS на Ethernet соответствует этой тенденции:

Совместимость и ценовые преимущества:Ethernet — это универсальный стандарт для глобальных центров обработки данных, более знакомый сетевым инженерам и более дешевый в развертывании, чем InfiniBand.

Прогнозы масштаба рынка:Данные Dell'Oro Group показывают, что рынок Ethernet-коммутаторов для центров обработки данных достигнет почти 80 миллиардов долларов в течение следующих пяти лет.

Собственный рост NVIDIA: Отчеты 650 Group указывают на то, что NVIDIA станет «самым быстро-растущим поставщиком» на рынке коммутаторов для центров обработки данных в 2024 году. Доходы ее сетевого бизнеса в квартале2 2024 (заканчивающемся 27 апреля) достигнут 5 миллиардов долларов США, что на 56 % больше, чем-по сравнению с-годом.

Запуск Spectrum-XGS расширяет полнофункциональную-стратегию NVIDIA в области инфраструктуры искусственного интеллекта, одновременно создавая новую конкурентную динамику:

Полная-схема стека NVIDIA: От графических процессоров (Blackwell), межсоединений (NVLink/NVLink Switch), сетей (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) до программного обеспечения (CUDA, TensorRT-LLM, микросервисов NIM) компания NVIDIA сформировала замкнутый цикл, охватывающий «программное обеспечение для вычислений-подключений-» для инфраструктуры искусственного интеллекта. Spectrum-XGS взаимодействует с NVLink для трех-уровневого масштабирования: внутри-стойки (NVLink), внутри-центра данных-(Spectrum-X) и перекрестного-центра обработки данных- (Спектр-XGS).

Ответы конкурентов: Более ранняя технология SUE от Broadcom преследует те же цели, что и Spectrum-XGS, и направлена ​​на оптимизацию производительности Ethernet, чтобы сократить разрыв с InfiniBand. Кроме того, такие поставщики, как Arista, Cisco и Marvell, ускоряют выпуск выделенных коммутаторов Ethernet с искусственным интеллектом, а конкуренты уделяют особое внимание производительности,-цене-совместимости с экосистемами.

Основная ценность Spectrum-XGS заключается в переходе от «ограничений одного-центра обработки данных» к «меж-региональному сотрудничеству». Поскольку мощность и площадь земли становятся жесткими ограничениями для отдельных центров обработки данных, меж-городские и-суперфабрики ИИ станут основной формой поддержки приложений ИИ следующего-поколения (например, общий искусственный интеллект, крупномасштабные-кластеры агентов).

Как заявил на конференции Hot Chips старший вице-президент сетевого отдела NVIDIA Гилад Шейнер: «Физические сети с перекрестными-данными-центрами оптоволокна существуют уже давно, но такие программные алгоритмы, как Spectrum-XGS, являются ключом к раскрытию истинной производительности этих физических инфраструктур».

Отправить запрос