Rozwiązanie techniczne przełącznika NVIDIA Mellanox MQM9790-NS2F InfiniBand

April 13, 2026

Rozwiązanie techniczne przełącznika NVIDIA Mellanox MQM9790-NS2F InfiniBand

Ta dokumentacja techniczna skierowana jest do architektów sieci, inżynierów przedsprzedażowych i kierowników operacyjnych.MQM9790-NS2F¥ przełącznik NDR InfiniBand o prędkości 400 Gb/s ¥ i zawiera szczegółowe wytyczne dotyczące projektowania architektury, kluczowych technologii, wdrożenia i skalowania, a także operacji i monitorowania,specjalnie dla optymalizacji interkonekcji RDMA/HPC/AI klastra o niskim opóźnieniu.

1. Analiza tła i wymagań projektu

Nowoczesne szkolenia w zakresie sztucznej inteligencji i obciążenia HPC napędzają klastry z tysięcy do dziesiątek tysięcy procesorów graficznych.Tradycyjne tkaniny Ethernet borykają się z opóźnieniem i kosztami CPU, podczas gdy starsze wdrożenia InfiniBand mogą nie mieć wystarczającej gęstości portu i przepustowości.efektywne wsparcie RDMA, i bezproblemowej skalowalności do setek przełączników.NVIDIA Mellanox MQM9790-NS2Fbezpośrednio zaspokaja te potrzeby dzięki możliwości NDR 400 Gb/s i zaawansowanym funkcjom obliczeniowym w sieci.

2Ogólne projektowanie architektury sieci i systemu

Zalecana architektura przyjmuje topologię Fat-Tree (znaną również jako składany Clos), która równoważy szerokość pasma, koszty i skalowalność.Serwery GPU wyposażone w adaptery ConnectX-7 NDR łączą się ze przełącznikami liściW warstwie kręgosłupa,MQM9790-NS2F Przełącznik InfiniBandJednostki zapewniają łączność między liśćmi bez blokowania.można zastosować topologię trójwarstwową (leaf-spine-super-spine), obsługujące nawet dziesiątki tysięcy węzłów GPU.

  • Przełączniki liści:Modele OSFP z 64-portami, z których każdy łączy się z 32 serwerami (podwójnym portem) oraz łączy w górę do kręgosłupa.
  • Warstwa kręgosłupa: MQM9790-NS2F 400Gb/s NDR 64-port OSFPCałkowicie niezablokowany projekt wymaga portów kręgosłupa równych liczbie przełączników liści.
  • Zarządzanie podsiecią:Dedykowany lub redundantny menedżer podsieci obsługuje obliczenia ścieżek, dostosowywane trasowanie i failover.

3. Rola i kluczowe cechy NVIDIA Mellanox MQM9790-NS2F w rozwiązaniu

Jako rdzeń kręgosłupa i opcjonalnie urządzenie liści,MQM9790-NS2Fzapewnia kilka kluczowych możliwości:

  • Wykonanie 400Gb/s NDR:Każdy z 64 portów OSFP działa w pełnym dupleksie 400Gb / s, zapewniając łączną zdolność przełączania wynoszącą 51.2Tb / s.
  • Ultra niskie opóźnienie i dostosowanie:Przełączanie poprzeczne utrzymuje opóźnienie między portami poniżej 130 ns. Adaptacyjne trasowanie dynamicznie równoważy ruch na wielu ścieżkach, unikając gorących punktów.
  • obliczenia w sieci (SHARPv3):Obsługuje skalowalną hierarchiczną agregację i redukcję, odciążając zbiorowe operacje z procesora / procesora graficznego i zmniejszając przepływ danych nawet o 10x.
  • Rodzinny projekt RDMA:RDMA z przyspieszeniem sprzętowym umożliwia bezpośredni dostęp do pamięci GPU, eliminując zaangażowanie procesora i znacznie zmniejszając koszty komunikacji.
  • Kompleksowa telemetria i QoS:Dokładna kontrola zatłoczenia, monitorowanie buforów i klasyfikacja przepływów zapewniają deterministyczną wydajność dla mieszanych obciążeń roboczych.

Zgodnie zArkusz danych MQM9790-NS2F, przełącznik obsługuje również zasilanie i wentylatory, redundantne porty zarządzania i pełny zestaw diagnostyki, co sprawia, że nadaje się do 7 × 24 środowisk produkcyjnych.

4. Zalecenia dotyczące wdrażania i skalowania (z typową topologią)

Typowy klaster 2,048-GPU może być zbudowany przy użyciu 64 przełączników liści i 32 przełączników kręgosłupa.Kompatybilny z MQM9790-NS2FW celu rozbudowy do 8192 procesorów graficznych dodano warstwę super-spine, łączącą wiele pods.

W miarę, jak się rozwija, należy rozważyć następujące kwestie:

  • Kable i optyka:Użyj OSFP-to-OSFP DAC dla krótkich połączeń wewnątrz racków, a OSFP-to-4xOSFP przewody przejściowe lub moduły optyczne dla dłuższych odległości.Specyfikacje MQM9790-NS2Fw odniesieniu do zasięgu i budżetu energii.
  • Rozmiar podsieci:Jeden menedżer podsieci może obsługiwać do 2000 węzłów; poza tym należy wdrożyć wiele podsieci lub użyć rozproszonego projektu menedżera podsieci.
  • Zwolnienie:Serwery podwójne i redundantne przełączniki rdzenia eliminują pojedyncze punkty awarii.MQM9790-NS2F Rozwiązanie przełącznika InfiniBandobsługuje bezbłędne przejście z właściwą konfiguracją SM.

5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja

Skuteczne działania wymagają widoczności i automatyzacji.

  • Monitoring:Użyj NVIDIA Fabric Manager i API telemetryczne do śledzenia błędów w portach, temperatury, zużycia energii i wykorzystania łącza.
  • Rozwiązywanie problemów:W sprawieMQM9790-NS2Fw przypadku pogorszenia wydajności sprawdź konfigurację adaptacyjnej trasy, upewnij się, że wszystkie łącza tkanin są symetryczne,i sprawdzić, czy agregacja SHARP jest włączona dla wspieranych kolektywów.
  • Optymalizacja:W przypadku dużych modeli sztucznej inteligencji włączyć kontrolę zatłoczenia i ustawić limity buforu, aby zapobiec blokadom PFC.Regularnie dokonywać przegląduCena MQM9790-NS2FW związku z tym, w odniesieniu do nowej technologii, w przypadku której wprowadzenie nowej technologii jest konieczne, należy zwrócić uwagę na to, że w przypadku nowej technologii, w której wprowadzono nowe technologie, wprowadzenie nowej technologii jest konieczne.

W przypadku organizacji oceniającychMQM9790-NS2F na sprzedaż, upewnij się, że Twój pakiet oprogramowania (np. NCCL, OpenMPI) obsługuje funkcje NDR, takie jak SHARPv3 i redukcja oparta na sprzęcie.

6Podsumowanie i ocena wartości

W sprawieMQM9790-NS2F Rozwiązanie przełącznika InfiniBandzapewnia jasną drogę do budowy tkanin o niskim opóźnieniu i dużej przepustowości dla wymagających klastrów RDMA/HPC/AI.i możliwości obliczeniowe w sieci bezpośrednio rozwiązują wyzwania dotyczące skalowalności i wydajności nowoczesnych obciążeń roboczych. Przyjmując architekturę opisaną powyżej – topologię Fat-Tree, przełączniki rdzeniowe NDR i native operację RDMA – organizacje mogą osiągnąć liniowe skalowanie GPU, skrócić czas zakończenia pracy o ponad 30%,Aby uzyskać szczegółowe informacje, należy odnieść się do oficjalnegoArkusz danych MQM9790-NS2FW celu omówienia dostosowanego projektu lub uzyskaniaCena MQM9790-NS2Fi dostępności, prosimy o kontakt z autoryzowanym partnerem NVIDIA.