Rozwiązanie techniczne przełącznika InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0

April 15, 2026

Rozwiązanie techniczne przełącznika InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0

1. Analiza tła i wymagań projektu

Współczesne klastry szkoleniowe AI i środowiska obliczeniowe o wysokiej wydajności (HPC) stoją przed wspólnym wyzwaniem w zakresie skalowania: wraz ze wzrostem liczby procesorów graficznych i gęstości obliczeń,Tradycyjne tkaniny Ethernet stają się głównym wąskim gardłem z powodu kosztów TCP/IPW przypadku obciążeń pracy zależnych od RDMA (Remote Direct Memory Access), nawet trzęsienie na poziomie mikrosekund może zmniejszyć efektywne wykorzystanie GPU o 30-40%.Mellanox (NVIDIA Mellanox)Przełącznik InfiniBand bezpośrednio rozwiązuje te wyzwania, zapewniając bezstratną, deterministyczną tkankę zoptymalizowaną do operacji zbiorowych, algorytmów redukcji wszystkich i komunikacji MPI o wysokiej częstotliwości.

Kluczowe wymagania dla sieci AI/HPC nowej generacji obejmują: opóźnienie w przełączaniu poniżej mikrosekundy, obsługę prędkości NDR 400 Gb/s, obliczenia sieciowe oparte na sprzęcie (SHARP v2),oraz bezproblemowa kompatybilność z przeszłością z istniejącą infrastrukturą HDR.920-9B210-00FN-0D0spełnia wszystkie te kryteria, oferując jednocześnie zarządzalność i telemetrię na poziomie przedsiębiorstwa.

2Ogólne projektowanie architektury sieci i systemu

Zalecana architektura koncentruje się na topologii dwuskładnikowego drzewa tłuszczowego (spine-leaf),który zapewnia pełną szerokość pasma biesekcji i deterministyczną opóźnienie dla wszystkich do wszystkich wzorców komunikacji typowych w rozproszonym szkoleniuWarstwa kręgosłupa składa się z:NVIDIA Mellanox 920-9B210-00FN-0D0przełączniki, z których każdy działa jako kręgosłup tkaniny NDR; przełączniki Leaf (np. serii QM9700) łączą się z węzłami obliczeniowymi za pośrednictwem adapterów ConnectX-7 lub BlueField-3,podczas gdy łącza do kręgosłupa działają z prędkością 400 Gb/s NDR.

W przypadku wielkoskalowych wdrożeń przekraczających 2000 procesorów graficznych można wdrożyć trójstopniową architekturę (core-aggregation-access), z920-9B210-00FN-0D0 MQM9790-NS2FWykorzystuje się urządzenia, które służą zarówno jako przełączniki rdzeniowe, jak i agregacyjne, zapewniając liniowe skalowanie wydajności i wspierając przyszłą ekspansję do NDR200 (800 Gb/s) bez konieczności modernizacji wózka widłowego.Urzędnik920-9B210-00FN-0D0 InfiniBand Switch OPNuproszcza zamówienie w wielu miejscach i zapewnia spójność oprogramowania układowego w całej strukturze.

3. Rola i kluczowe cechy 920-9B210-00FN-0D0 w rozwiązaniu

W sprawie920-9B210-00FN-0D0Służy jako wysokiej wydajności kręgosłup / rdzeń elementu w tkance InfiniBand.

  • 400 Gb/s Gęstość portu NDR:Każdy920-9B210-00FN-0D0 MQM9790-NS2Fprzełącznik zapewnia do 32 portów 400Gb/s, obsługując zarówno miedziane, jak i optyczne nadajniki do elastycznego okablowania do 500 metrów (jednopodobne).
  • In-Network Computing (SHARP v2):Operacje All-Reduction przyspieszone przez sprzęt skracają czas komunikacji zbiorowej nawet o 8 razy dla obciążeń szkoleniowych AI, bezpośrednio poprawiając wykorzystanie GPU.
  • Adaptacyjna trasa i kontrola zatłoczenia:Dynamiczny wybór ścieżki zapobiega tworzeniu się hotspotów i zapewnia deterministyczną opóźnienie w przypadku wzorców ruchu incast.
  • Alternatywa RDMA przez konwergencyjny Ethernet (RoCE):W przeciwieństwie do RoCE, native InfiniBand na920-9B210-00FN-0D0nie wymaga konfiguracji PFC i zapewnia stałą wydajność nawet przy 95% wykorzystaniu łącza.

Inżynierowie mogą konsultowaćArtykuł 920-9B210-00FN-0D0a takżeSpecyfikacje 920-9B210-00FN-0D0w celu uzyskania szczegółowych danych dotyczących mocy (typowo 350 W), temperatury i opóźnienia (opóźnienie w przełączaniu poniżej 200 ns).920-9B210-00FN-0D0 zgodnyz wszystkimi głównymi punktami końcowymi NVIDIA InfiniBand i zewnętrznymi optykami NDR.

4. Zalecenia dotyczące wdrażania i skalowania (przykłady topologii)

Mały klaster (128-256 procesorów graficznych):Jednorazowy kręgosłup 2x920-9B210-00FN-0D0Przełączniki, z których każdy łączy się z 8-16 przełącznikami liści.Cluster średni (512-1024 GPU):Cztery przełączniki kręgosłupa w konfiguracji bez blokowania, z każdym przełącznikiem liściowym posiadającym 4 łącza w górę (2 na kręgosłup).Duży klaster (2048+ GPU):Warstwa rdzenia 8xNVIDIA Mellanox 920-9B210-00FN-0D0Wszystkie połączenia są realizowane przy 400 Gb/s NDR, z opcjonalną gotowością NDR200.

W przypadku organizacji oceniających koszty920-9B210-00FN-0D0 cenaPozycjonowana jest konkurencyjnie w stosunku do wysokiej klasy przełączników Ethernet przy uwzględnieniu całkowitych kosztów posiadania (TCO).920-9B210-00FN-0D0 do sprzedażyprzez autoryzowaną sieć dystrybucyjną NVIDIA, z typowymi czasami realizacji 4-6 tygodni.

5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja

Zarządzanie jest scentralizowane za pośrednictwem NVIDIA Unified Fabric Manager (UFM), który zapewnia telemetrię w czasie rzeczywistym, analizę błędów predykcyjnych i automatyczne naprawy.920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPNobejmują:

  • Podstawowe wartości wyników:Użyj map cieplnych UFM w celu zidentyfikowania mikro-wybuchów.Specyfikacje 920-9B210-00FN-0D0potwierdzenie liczników sprzętowych dla znaków ECN i zajętości buforu.
  • Zarządzanie oprogramowaniem:Utrzymuj wszystkie urządzenia na tej samej gałęzi firmware NDR.Artykuł 920-9B210-00FN-0D0zawiera matrycę kompatybilności dla ConnectX-7 i BlueField-3.
  • Scenariusze błędu:Zbywalne źródła zasilania i moduły wentylatorów umożliwiają redundancję N + 1. UFM może automatycznie przekierowywać ruch wokół uszkodzonych łączy lub przełączników.
  • Wskazówki dotyczące optymalizacji:Włączyć adaptive routing na wszystkich portach kręgosłupa; wyłączyć globalne ramki przerwy; skonfigurować SHARP dla wszystkich obciążeń pracy o dużym natężeniu; użyć920-9B210-00FN-0D0 InfiniBand Switch OPNidentyfikatorów do mapowania fizycznych portów do logicznych ról.

6Podsumowanie i ocena wartości

W sprawieMellanox (NVIDIA Mellanox)jest podstawowym elementem budowlanym wysokiej wydajności tkanin AI i HPC, zapewniając przepustowość NDR 400 Gb/s, opóźnienie przełączania poniżej mikrosekundy oraz obliczenia w sieci SHARP v2,eliminuje wąskie gardła sieci, które zazwyczaj ograniczają skalowanie GPU.920-9B210-00FN-0D0To nie jest tylko przełącznik, to kompletny920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPNObejmuje to pełną kompatybilność z istniejącymi infrastrukturami HDR, możliwość zarządzania na poziomie przedsiębiorstwa za pośrednictwem UFM oraz jasną ścieżkę migracji do przyszłych prędkości NDR200.Dla architektów sieci i menedżerów IT dążących do optymalizacji wydajności interkonekcji klastra RDMA/HPC/AI, przełącznik ten zapewnia mierzalny ROI dzięki większemu wykorzystaniu procesora graficznego, skróconemu czasie realizacji pracy i niższym kosztom operacyjnym.

Referencja kluczowych specyfikacji

Parametry Wartość
Model NVIDIA Mellanox 920-9B210-00FN-0D0
Wskaźnik danych 400Gb/s NDR (na port)
OPN bazy 920-9B210-00FN-0D0 InfiniBand Switch OPN
Pełna konfiguracja 920-9B210-00FN-0D0 MQM9790-NS2F
Zmiana opóźnienia < 200 ns
Zużycie energii ~ 350 W (typowy)