Rozwiązanie techniczne przełącznika InfiniBand Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0
April 15, 2026
1. Analiza tła i wymagań projektu
Współczesne klastry szkoleniowe AI i środowiska obliczeniowe o wysokiej wydajności (HPC) stoją przed wspólnym wyzwaniem w zakresie skalowania: wraz ze wzrostem liczby procesorów graficznych i gęstości obliczeń,Tradycyjne tkaniny Ethernet stają się głównym wąskim gardłem z powodu kosztów TCP/IPW przypadku obciążeń pracy zależnych od RDMA (Remote Direct Memory Access), nawet trzęsienie na poziomie mikrosekund może zmniejszyć efektywne wykorzystanie GPU o 30-40%.Mellanox (NVIDIA Mellanox)Przełącznik InfiniBand bezpośrednio rozwiązuje te wyzwania, zapewniając bezstratną, deterministyczną tkankę zoptymalizowaną do operacji zbiorowych, algorytmów redukcji wszystkich i komunikacji MPI o wysokiej częstotliwości.
Kluczowe wymagania dla sieci AI/HPC nowej generacji obejmują: opóźnienie w przełączaniu poniżej mikrosekundy, obsługę prędkości NDR 400 Gb/s, obliczenia sieciowe oparte na sprzęcie (SHARP v2),oraz bezproblemowa kompatybilność z przeszłością z istniejącą infrastrukturą HDR.920-9B210-00FN-0D0spełnia wszystkie te kryteria, oferując jednocześnie zarządzalność i telemetrię na poziomie przedsiębiorstwa.
2Ogólne projektowanie architektury sieci i systemu
Zalecana architektura koncentruje się na topologii dwuskładnikowego drzewa tłuszczowego (spine-leaf),który zapewnia pełną szerokość pasma biesekcji i deterministyczną opóźnienie dla wszystkich do wszystkich wzorców komunikacji typowych w rozproszonym szkoleniuWarstwa kręgosłupa składa się z:NVIDIA Mellanox 920-9B210-00FN-0D0przełączniki, z których każdy działa jako kręgosłup tkaniny NDR; przełączniki Leaf (np. serii QM9700) łączą się z węzłami obliczeniowymi za pośrednictwem adapterów ConnectX-7 lub BlueField-3,podczas gdy łącza do kręgosłupa działają z prędkością 400 Gb/s NDR.
W przypadku wielkoskalowych wdrożeń przekraczających 2000 procesorów graficznych można wdrożyć trójstopniową architekturę (core-aggregation-access), z920-9B210-00FN-0D0 MQM9790-NS2FWykorzystuje się urządzenia, które służą zarówno jako przełączniki rdzeniowe, jak i agregacyjne, zapewniając liniowe skalowanie wydajności i wspierając przyszłą ekspansję do NDR200 (800 Gb/s) bez konieczności modernizacji wózka widłowego.Urzędnik920-9B210-00FN-0D0 InfiniBand Switch OPNuproszcza zamówienie w wielu miejscach i zapewnia spójność oprogramowania układowego w całej strukturze.
3. Rola i kluczowe cechy 920-9B210-00FN-0D0 w rozwiązaniu
W sprawie920-9B210-00FN-0D0Służy jako wysokiej wydajności kręgosłup / rdzeń elementu w tkance InfiniBand.
- 400 Gb/s Gęstość portu NDR:Każdy920-9B210-00FN-0D0 MQM9790-NS2Fprzełącznik zapewnia do 32 portów 400Gb/s, obsługując zarówno miedziane, jak i optyczne nadajniki do elastycznego okablowania do 500 metrów (jednopodobne).
- In-Network Computing (SHARP v2):Operacje All-Reduction przyspieszone przez sprzęt skracają czas komunikacji zbiorowej nawet o 8 razy dla obciążeń szkoleniowych AI, bezpośrednio poprawiając wykorzystanie GPU.
- Adaptacyjna trasa i kontrola zatłoczenia:Dynamiczny wybór ścieżki zapobiega tworzeniu się hotspotów i zapewnia deterministyczną opóźnienie w przypadku wzorców ruchu incast.
- Alternatywa RDMA przez konwergencyjny Ethernet (RoCE):W przeciwieństwie do RoCE, native InfiniBand na920-9B210-00FN-0D0nie wymaga konfiguracji PFC i zapewnia stałą wydajność nawet przy 95% wykorzystaniu łącza.
Inżynierowie mogą konsultowaćArtykuł 920-9B210-00FN-0D0a takżeSpecyfikacje 920-9B210-00FN-0D0w celu uzyskania szczegółowych danych dotyczących mocy (typowo 350 W), temperatury i opóźnienia (opóźnienie w przełączaniu poniżej 200 ns).920-9B210-00FN-0D0 zgodnyz wszystkimi głównymi punktami końcowymi NVIDIA InfiniBand i zewnętrznymi optykami NDR.
4. Zalecenia dotyczące wdrażania i skalowania (przykłady topologii)
Mały klaster (128-256 procesorów graficznych):Jednorazowy kręgosłup 2x920-9B210-00FN-0D0Przełączniki, z których każdy łączy się z 8-16 przełącznikami liści.Cluster średni (512-1024 GPU):Cztery przełączniki kręgosłupa w konfiguracji bez blokowania, z każdym przełącznikiem liściowym posiadającym 4 łącza w górę (2 na kręgosłup).Duży klaster (2048+ GPU):Warstwa rdzenia 8xNVIDIA Mellanox 920-9B210-00FN-0D0Wszystkie połączenia są realizowane przy 400 Gb/s NDR, z opcjonalną gotowością NDR200.
W przypadku organizacji oceniających koszty920-9B210-00FN-0D0 cenaPozycjonowana jest konkurencyjnie w stosunku do wysokiej klasy przełączników Ethernet przy uwzględnieniu całkowitych kosztów posiadania (TCO).920-9B210-00FN-0D0 do sprzedażyprzez autoryzowaną sieć dystrybucyjną NVIDIA, z typowymi czasami realizacji 4-6 tygodni.
5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja
Zarządzanie jest scentralizowane za pośrednictwem NVIDIA Unified Fabric Manager (UFM), który zapewnia telemetrię w czasie rzeczywistym, analizę błędów predykcyjnych i automatyczne naprawy.920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPNobejmują:
- Podstawowe wartości wyników:Użyj map cieplnych UFM w celu zidentyfikowania mikro-wybuchów.Specyfikacje 920-9B210-00FN-0D0potwierdzenie liczników sprzętowych dla znaków ECN i zajętości buforu.
- Zarządzanie oprogramowaniem:Utrzymuj wszystkie urządzenia na tej samej gałęzi firmware NDR.Artykuł 920-9B210-00FN-0D0zawiera matrycę kompatybilności dla ConnectX-7 i BlueField-3.
- Scenariusze błędu:Zbywalne źródła zasilania i moduły wentylatorów umożliwiają redundancję N + 1. UFM może automatycznie przekierowywać ruch wokół uszkodzonych łączy lub przełączników.
- Wskazówki dotyczące optymalizacji:Włączyć adaptive routing na wszystkich portach kręgosłupa; wyłączyć globalne ramki przerwy; skonfigurować SHARP dla wszystkich obciążeń pracy o dużym natężeniu; użyć920-9B210-00FN-0D0 InfiniBand Switch OPNidentyfikatorów do mapowania fizycznych portów do logicznych ról.
6Podsumowanie i ocena wartości
W sprawieMellanox (NVIDIA Mellanox)jest podstawowym elementem budowlanym wysokiej wydajności tkanin AI i HPC, zapewniając przepustowość NDR 400 Gb/s, opóźnienie przełączania poniżej mikrosekundy oraz obliczenia w sieci SHARP v2,eliminuje wąskie gardła sieci, które zazwyczaj ograniczają skalowanie GPU.920-9B210-00FN-0D0To nie jest tylko przełącznik, to kompletny920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPNObejmuje to pełną kompatybilność z istniejącymi infrastrukturami HDR, możliwość zarządzania na poziomie przedsiębiorstwa za pośrednictwem UFM oraz jasną ścieżkę migracji do przyszłych prędkości NDR200.Dla architektów sieci i menedżerów IT dążących do optymalizacji wydajności interkonekcji klastra RDMA/HPC/AI, przełącznik ten zapewnia mierzalny ROI dzięki większemu wykorzystaniu procesora graficznego, skróconemu czasie realizacji pracy i niższym kosztom operacyjnym.
Referencja kluczowych specyfikacji
| Parametry | Wartość |
|---|---|
| Model | NVIDIA Mellanox 920-9B210-00FN-0D0 |
| Wskaźnik danych | 400Gb/s NDR (na port) |
| OPN bazy | 920-9B210-00FN-0D0 InfiniBand Switch OPN |
| Pełna konfiguracja | 920-9B210-00FN-0D0 MQM9790-NS2F |
| Zmiana opóźnienia | < 200 ns |
| Zużycie energii | ~ 350 W (typowy) |

