Rozwiązanie techniczne przełącznika NVIDIA Mellanox MQM9790-NS2F InfiniBand
April 13, 2026
Ta dokumentacja techniczna skierowana jest do architektów sieci, inżynierów przedsprzedażowych i kierowników operacyjnych.MQM9790-NS2F¥ przełącznik NDR InfiniBand o prędkości 400 Gb/s ¥ i zawiera szczegółowe wytyczne dotyczące projektowania architektury, kluczowych technologii, wdrożenia i skalowania, a także operacji i monitorowania,specjalnie dla optymalizacji interkonekcji RDMA/HPC/AI klastra o niskim opóźnieniu.
1. Analiza tła i wymagań projektu
Nowoczesne szkolenia w zakresie sztucznej inteligencji i obciążenia HPC napędzają klastry z tysięcy do dziesiątek tysięcy procesorów graficznych.Tradycyjne tkaniny Ethernet borykają się z opóźnieniem i kosztami CPU, podczas gdy starsze wdrożenia InfiniBand mogą nie mieć wystarczającej gęstości portu i przepustowości.efektywne wsparcie RDMA, i bezproblemowej skalowalności do setek przełączników.NVIDIA Mellanox MQM9790-NS2Fbezpośrednio zaspokaja te potrzeby dzięki możliwości NDR 400 Gb/s i zaawansowanym funkcjom obliczeniowym w sieci.
2Ogólne projektowanie architektury sieci i systemu
Zalecana architektura przyjmuje topologię Fat-Tree (znaną również jako składany Clos), która równoważy szerokość pasma, koszty i skalowalność.Serwery GPU wyposażone w adaptery ConnectX-7 NDR łączą się ze przełącznikami liściW warstwie kręgosłupa,MQM9790-NS2F Przełącznik InfiniBandJednostki zapewniają łączność między liśćmi bez blokowania.można zastosować topologię trójwarstwową (leaf-spine-super-spine), obsługujące nawet dziesiątki tysięcy węzłów GPU.
- Przełączniki liści:Modele OSFP z 64-portami, z których każdy łączy się z 32 serwerami (podwójnym portem) oraz łączy w górę do kręgosłupa.
- Warstwa kręgosłupa: MQM9790-NS2F 400Gb/s NDR 64-port OSFPCałkowicie niezablokowany projekt wymaga portów kręgosłupa równych liczbie przełączników liści.
- Zarządzanie podsiecią:Dedykowany lub redundantny menedżer podsieci obsługuje obliczenia ścieżek, dostosowywane trasowanie i failover.
3. Rola i kluczowe cechy NVIDIA Mellanox MQM9790-NS2F w rozwiązaniu
Jako rdzeń kręgosłupa i opcjonalnie urządzenie liści,MQM9790-NS2Fzapewnia kilka kluczowych możliwości:
- Wykonanie 400Gb/s NDR:Każdy z 64 portów OSFP działa w pełnym dupleksie 400Gb / s, zapewniając łączną zdolność przełączania wynoszącą 51.2Tb / s.
- Ultra niskie opóźnienie i dostosowanie:Przełączanie poprzeczne utrzymuje opóźnienie między portami poniżej 130 ns. Adaptacyjne trasowanie dynamicznie równoważy ruch na wielu ścieżkach, unikając gorących punktów.
- obliczenia w sieci (SHARPv3):Obsługuje skalowalną hierarchiczną agregację i redukcję, odciążając zbiorowe operacje z procesora / procesora graficznego i zmniejszając przepływ danych nawet o 10x.
- Rodzinny projekt RDMA:RDMA z przyspieszeniem sprzętowym umożliwia bezpośredni dostęp do pamięci GPU, eliminując zaangażowanie procesora i znacznie zmniejszając koszty komunikacji.
- Kompleksowa telemetria i QoS:Dokładna kontrola zatłoczenia, monitorowanie buforów i klasyfikacja przepływów zapewniają deterministyczną wydajność dla mieszanych obciążeń roboczych.
Zgodnie zArkusz danych MQM9790-NS2F, przełącznik obsługuje również zasilanie i wentylatory, redundantne porty zarządzania i pełny zestaw diagnostyki, co sprawia, że nadaje się do 7 × 24 środowisk produkcyjnych.
4. Zalecenia dotyczące wdrażania i skalowania (z typową topologią)
Typowy klaster 2,048-GPU może być zbudowany przy użyciu 64 przełączników liści i 32 przełączników kręgosłupa.Kompatybilny z MQM9790-NS2FW celu rozbudowy do 8192 procesorów graficznych dodano warstwę super-spine, łączącą wiele pods.
W miarę, jak się rozwija, należy rozważyć następujące kwestie:
- Kable i optyka:Użyj OSFP-to-OSFP DAC dla krótkich połączeń wewnątrz racków, a OSFP-to-4xOSFP przewody przejściowe lub moduły optyczne dla dłuższych odległości.Specyfikacje MQM9790-NS2Fw odniesieniu do zasięgu i budżetu energii.
- Rozmiar podsieci:Jeden menedżer podsieci może obsługiwać do 2000 węzłów; poza tym należy wdrożyć wiele podsieci lub użyć rozproszonego projektu menedżera podsieci.
- Zwolnienie:Serwery podwójne i redundantne przełączniki rdzenia eliminują pojedyncze punkty awarii.MQM9790-NS2F Rozwiązanie przełącznika InfiniBandobsługuje bezbłędne przejście z właściwą konfiguracją SM.
5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja
Skuteczne działania wymagają widoczności i automatyzacji.
- Monitoring:Użyj NVIDIA Fabric Manager i API telemetryczne do śledzenia błędów w portach, temperatury, zużycia energii i wykorzystania łącza.
- Rozwiązywanie problemów:W sprawieMQM9790-NS2Fw przypadku pogorszenia wydajności sprawdź konfigurację adaptacyjnej trasy, upewnij się, że wszystkie łącza tkanin są symetryczne,i sprawdzić, czy agregacja SHARP jest włączona dla wspieranych kolektywów.
- Optymalizacja:W przypadku dużych modeli sztucznej inteligencji włączyć kontrolę zatłoczenia i ustawić limity buforu, aby zapobiec blokadom PFC.Regularnie dokonywać przegląduCena MQM9790-NS2FW związku z tym, w odniesieniu do nowej technologii, w przypadku której wprowadzenie nowej technologii jest konieczne, należy zwrócić uwagę na to, że w przypadku nowej technologii, w której wprowadzono nowe technologie, wprowadzenie nowej technologii jest konieczne.
W przypadku organizacji oceniającychMQM9790-NS2F na sprzedaż, upewnij się, że Twój pakiet oprogramowania (np. NCCL, OpenMPI) obsługuje funkcje NDR, takie jak SHARPv3 i redukcja oparta na sprzęcie.
6Podsumowanie i ocena wartości
W sprawieMQM9790-NS2F Rozwiązanie przełącznika InfiniBandzapewnia jasną drogę do budowy tkanin o niskim opóźnieniu i dużej przepustowości dla wymagających klastrów RDMA/HPC/AI.i możliwości obliczeniowe w sieci bezpośrednio rozwiązują wyzwania dotyczące skalowalności i wydajności nowoczesnych obciążeń roboczych. Przyjmując architekturę opisaną powyżej topologię Fat-Tree, przełączniki rdzeniowe NDR i native operację RDMA organizacje mogą osiągnąć liniowe skalowanie GPU, skrócić czas zakończenia pracy o ponad 30%,Aby uzyskać szczegółowe informacje, należy odnieść się do oficjalnegoArkusz danych MQM9790-NS2FW celu omówienia dostosowanego projektu lub uzyskaniaCena MQM9790-NS2Fi dostępności, prosimy o kontakt z autoryzowanym partnerem NVIDIA.

