NVIDIA Mellanox MQM9790-NS2F Przełącznik InfiniBand w akcji: Optymalizacja połączeń między sieciami o niskim opóźnieniu

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch w akcji: Optymalizacja połączeń o niskim opóźnieniu dla klastrów RDMA/HPC/AI

W szkoleniu AI, symulacjach obliczeń o wysokiej wydajności (HPC) i rozproszonych systemach przechowywania danych na dużą skalę, opóźnienie sieciowe i przepustowość często decydują o górnej granicy wydajności klastra. Aby pomóc organizacjom przełamać ten wąskie gardło, przełącznik InfiniBand MQM9790-NS2F firmy NVIDIA Mellanox staje się kluczowym elementem połączeń w wielu wdrożeniach AI i HPC. Ten artykuł przedstawia rzeczywistą modernizację dużego klastra szkoleniowego AI, ilustrując, w jaki sposób ten przełącznik zapewnia sieci RDMA o niskim opóźnieniu i mierzalne zyski wydajności.

Tło i wyzwanie: Presja sieciowa od tysiąca do dziesięciu tysięcy GPU

Wiodąca instytucja badawcza wcześniej obsługiwała klaster z tysiącem GPU do szkolenia dużych modeli językowych i symulacji pogody. W miarę wzrostu parametrów modelu z dziesiątek miliardów do setek miliardów, istniejąca sieć InfiniBand 200 Gb/s HDR zaczęła doświadczać zatorów i rosnących narzutów komunikacyjnych. Operacje Cross-node All-Reduce zajmowały znacznie więcej czasu, a GPU często pozostawały bezczynne, czekając na transfery sieciowe. Architekci pilnie potrzebowali rozwiązania oferującego większą gęstość portów, bardziej precyzyjne równoważenie obciążenia i pełną kompatybilność z istniejącą infrastrukturą RDMA.

Po dokładnej ocenie zespół wybrał sieć InfiniBand klasy NDR opartą na NVIDIA Mellanox MQM9790-NS2F. Dzięki 64 portom OSFP, każdy działający z prędkością linii 400 Gb/s, przełącznik idealnie odpowiada wymaganiom przepustowości serwerów GPU nowej generacji.

Rozwiązanie i wdrożenie: Sieć NDR + Bezstratna sieć RDMA

W nowym projekcie każdy serwer GPU jest wyposażony w dwuportowe adaptery ConnectX-7, połączone z dwoma przełącznikami leaf. W rdzeniu przełączniki MQM9790-NS2F 400Gb/s NDR 64-port OSFP tworzą dwuwarstwową topologię Fat-Tree, wykorzystując nienablokującą architekturę Clos. Włączono routing adaptacyjny i kontrolę zatorów, wykorzystując natywne InfiniBand RDMA do przesyłania danych bezpośrednio z pamięci GPU do zdalnej pamięci GPU, omijając narzuty procesora i stosu oprogramowania.

Wykorzystanie portów i kompatybilność: Istniejące adaptery HDR mogą działać ze zmniejszoną prędkością, chroniąc wcześniejsze inwestycje. Lista MQM9790-NS2F kompatybilny obejmuje główne serwery GPU i systemy przechowywania danych, nie wymagając modyfikacji sterowników podczas wdrażania.
Inteligentne operacje: Wbudowana telemetria monitoruje błędy połączeń i zatory w czasie rzeczywistym, pomagając zespołom szybko izolować problemy z modułami optycznymi lub kablami i drastycznie skracając średni czas naprawy.

Wyniki i korzyści: Czas iteracji szkolenia skrócony o 38%, narzut sieciowy spada do 8%

Po modernizacji instytucja przeprowadziła testy porównawcze na obciążeniach produkcyjnych. W zadaniu wstępnego szkolenia w stylu GPT z 100 miliardami parametrów, klaster zbudowany na przełączniku InfiniBand MQM9790-NS2F skrócił czas iteracji z 2,8 sekundy do 1,73 sekundy — poprawa o 38%. Udział komunikacji sieciowej w całkowitym opóźnieniu spadł z 22% do 8%, co oznacza, że GPU spędzały znacznie więcej czasu na użytecznych obliczeniach. Dzięki obliczeniom w sieci SHARPv3 w przełączniku NDR, wykorzystanie przepustowości All-Reduce prawie się podwoiło.

Po stronie przechowywania danych, niskie opóźnienie NVMe over InfiniBand zwiększyło łączną przepustowość odczytu/zapisu równoległego systemu plików 2,3-krotnie. Czasy zapisywania i przywracania punktów kontrolnych skróciły się z 12 minut do poniżej 5 minut. Te dane są zawarte w wewnętrznych raportach z testów i są zgodne z podstawą specyfikacji MQM9790-NS2F.

Podsumowanie i perspektywy: Połączenie NDR jako domyślny wybór dla infrastruktury AI nowej generacji

Ten przypadek wyraźnie pokazuje, że w przypadku dużych klastrów RDMA/HPC/AI, przyjęcie rozwiązania przełącznika InfiniBand MQM9790-NS2F skutecznie eliminuje zatory sieciowe, zwiększa wykorzystanie GPU i upraszcza operacje. Dla architektów planujących klastry z dziesięcioma tysiącami GPU, karta katalogowa MQM9790-NS2F jest niezbędnym punktem odniesienia do oceny mocy, gęstości portów i zestawów funkcji. Model jest już w produkcji masowej; w przypadku zapytań o cenę MQM9790-NS2F lub MQM9790-NS2F na sprzedaż, prosimy o kontakt z autoryzowanymi partnerami NVIDIA. Ponieważ przyszłe obciążenia napędzają popyt w kierunku 800 Gb/s i wyższych prędkości, platforma przełączania NDR będzie nadal odgrywać kluczową rolę w odblokowywaniu potencjału obliczeniowego.