Dokument techniczny: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Solution

January 6, 2026

Dokument techniczny: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Solution
1Analiza tła i potrzeb projektu

Ewolucja obciążeń obliczeniowych w kierunku szkolenia w zakresie inteligencji sztucznej na ekzaskalach i symulacji HPC o wysokiej wiarygodności zasadniczo przesunęła wąski gardło wydajności z obliczeń na połączenia.Nowoczesne klastry zależne od RDMA wymagają tkaniny, która zapewnia nie tylko wysoką przepustowość, ale również deterministyczną ultra niską opóźnienie, minimalne zmartwienia i płynna skalowalność.które bezpośrednio przekładają się na dłuższy czas do rozwiązania, niedostatecznie wykorzystane zasoby GPU/CPU i zwiększone koszty operacyjne.

Rozwiązanie to techniczne odpowiada na podstawowe wymagania dla centrów danych i ośrodków badawczych nowej generacji: ustanowienie jednolitego,wysokiej wydajności tkanina zdolna do konwergencji klasycznych obciążeń pracy HPC (opartych na MPI) i nowoczesnej sztucznej inteligencji (komunikacji zbiorowej)Kluczowe wymagania techniczne obejmują opóźnienie włączania poniżej mikrosekundy, nieblokowanie przepustowości dla wszystkich wzorców komunikacji, inteligentne sterowanie zatłoczeniami,i ramy zarządzania zapewniające głęboką widoczność i automatyzację.920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPNjest zaprojektowany tak, by spełniać te rygorystyczne standardy.

2Ogólne projektowanie architektury sieci/systemów

Zaproponowana architektura to tkanina z warstwy kręgosłupa zaprojektowana dla maksymalnej szerokości pasma i skalowalności, zbudowana na technologii NDR 400Gb/s InfiniBand.NVIDIA Mellanox 920-9B210-00FN-0D0warstwa liści może składać się z mieszanki przełączników NDR lub HDR, łączących węzły obliczeniowe (serwery GPU, takie jak systemy NVIDIA DGX, klastry procesorów),urządzenia do przechowywania danych, które mogą być wykorzystywane do przechowywania danych, w tym urządzenia do przechowywania danych, i węzły zarządzania.

Ten odłączony projekt zapewnia przewidywalne opóźnienie i eliminuje nadmierne subskrypcje w tkance.

  • Tkanina zjednoczona:Jednolita sieć dla ruchu obliczeniowego (Wschód-Zachód) i przechowywania danych, uproszczająca zarządzanie i zmniejszająca CAPEX.
  • Operacja bez strat:Wykorzystanie natywnej kontroli zatłoczenia i zarządzania przepływem ruchu w InfiniBand w celu zagwarantowania zerowej utraty pakietów, co jest kluczowe dla wydajności RDMA i MPI.
  • Sieć definiowana przez oprogramowanie:Integracja z NVIDIA Cumulus Linux i platformą UFM® umożliwia programowalną automatyzację tkanin i zarządzanie oparte na zasadach.
3. Rola i kluczowe cechy NVIDIA Mellanox 920-9B210-00FN-0D0

W sprawie920-9B210-00FN-0D0 MQM9790-NS2FKomutator jest strategicznym kamieniem węgielnym tej architektury, pełniącym rolę kręgosłupa wysokiej wydajności.

Jego główne cechy techniczne, szczegółowo opisane w oficjalnymArtykuł 920-9B210-00FN-0D0, bezpośrednio optymalizacja niskiej opóźnienia:

  • Przełączanie poprzeczne i ultra niska opóźnienie:Przełącznik wykorzystuje zaawansowaną architekturę przełączania poprzecznego, osiągając opóźnienie port-port poniżej 100 nanosekund..
  • NDR 400Gb/s Przepustowość:Każdy port dostarcza 400 Gb/s, zapewniając niezbędne pole widzenia w celu zapobiegania zatłoczeniu podczas szczytowych obciążeń prac, takich jak rozproszone punkty kontrolne szkoleniowe AI lub operacje MPI_allreduce na dużą skalę.
  • Adaptacyjna trasa i kontrola zatłoczenia:Technologia NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) v3, wbudowana w przełącznik, odpowiada za zbiorowe operacje z procesora,drastyczne zmniejszenie kosztów synchronizacjiW połączeniu z dynamicznym dostosowaniem trasy zapobiegają gorącym punktom i zapewniają zrównoważone wykorzystanie tkaniny.
  • Kompatybilność z przeszłością i przyszłością:Zmiana jest integralną częścią strategii płynnej migracji.zgodneW celu uzyskania informacji na temat możliwości wdrożenia nowych rozwiązań w zakresie HDR (200Gb/s) i EDR (100Gb/s) należy zwrócić się do:Specyfikacje 920-9B210-00FN-0D0jest kluczowe dla planowania łączności portu i typów kabli.
4. Zalecenia dotyczące wdrażania i skalowania (w tym typowy opis topologii)

Początkowe rozmieszczenie powinno podążać za modułowym podejściem "pod".920-9B210-00FN-0D0przełączniki w roli kręgosłupa dla redundancji, połączone z wieloma przełącznikami HDR lub NDR obsługującymi kilkadziesiąt węzłów obliczeniowych.

Zalecana topologia dla optymalnej wydajności:Dwuwarstwowa topologia Clos (Fat-Tree) bez blokowania.Liczba przełączników kręgosłupa (920-9B210-00FN-0D0 jednostki) jest określona przez liczbę połączeń w górę z każdego przełącznika liści i pożądany współczynnik nadpłaty (idealnie 11 dla HPC/AI).

  • Zwiększenie skali:Aby skalować klaster, dodać więcej przełączników liści i proporcjonalnie dodać więcej920-9B210-00FN-0D0Wykorzystuje się w tym celu systemy ośrodkowe, w tym układy kręgosłupa, aby utrzymać współczynnik nieblokowania.
  • Zwiększanie skali:Poszczególne węzły mogą zostać uaktualnione do NDR NIC, natychmiast wykorzystując pełną szerokość pasma 400Gb / s do kręgosłupa.zgodneNatura wspiera to heterogeniczne środowisko.
  • Kabli i zasilanie:Planowanie wdrożenia musi uwzględniać kable optyczne zgodne z NDR (np. OSFP).Specyfikacje 920-9B210-00FN-0D0dostarcza dokładnych danych dotyczących zużycia energii i temperatury w celu dokładnego zaprojektowania zasilania i chłodzenia centrów danych.

Kiedy dostępne jest to rozwiązaniena sprzedaż, włączając się z certyfikowanymi partnerami zaleca się modelowanie właściwego920-9B210-00FN-0D0 cenai ilość dla konkretnego planu skalowania.

5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja zaleceń

Doskonalenie operacyjne osiąga się dzięki platformie NVIDIA UFM®, która zapewnia kompleksowe zarządzanie cyklem życia całej tkaniny, w tym każdego920-9B210-00FN-0D0Przełącz.

  • Proaktywny monitoring:UFM® oferuje telemetrię w czasie rzeczywistym na temat stanu przełącznika, wykorzystania portów, temperatury, liczników błędów oraz dogłębną analizę wzorców ruchu na poziomie aplikacji,w tym macierze komunikacyjne MPI i RDMA.
  • Automatyczne zarządzanie tkaninami:Od początkowego wprowadzania zabezpieczeń i weryfikacji kabli po aktualizacje oprogramowania układowego i kopie zapasowe konfiguracji, UFM® automatyzuje rutynowe zadania, zmniejszając błędy ludzkie i koszty operacyjne.
  • Rozwiązywanie problemów:Zaawansowane narzędzia mogą wskazywać anomalie w wydajności, identyfikować nieprawidłowe przepływy powodujące zatłoczenie i wizualizować topologię tkaniny, aby szybko odizolować uszkodzone ogniwa lub komponenty.
  • Ciągła optymalizacja:Wykorzystanie wglądu UFM® do odpowiednich obciążeń roboczych, weryfikacja, czy wydajność jest zgodnaarkusz danychRegularne przeglądy wskaźników zatłoczenia i opóźnienia są kluczowe dla utrzymania maksymalnej wydajności tkanin.
6Wniosek i ocena wartości

Wdrażanie architektury tkanin skoncentrowanej naNVIDIA Mellanox 920-9B210-00FN-0D0Przełącznik InfiniBand zapewnia podstawową przewagę konkurencyjną dla organizacji zależnych od obliczeń o wysokiej wydajności.Rozwiązanie techniczne dostarcza wartość mierzalną w wielu wymiarach:

Wymiar wartości Zrealizowane rezultaty
Wydajność techniczna Determynistyczne opóźnienie poniżej mikrosekundy, nieblokowana szerokość pasma 400 Gb/s i bezzatłoczona obsługa dla RDMA i MPI.
Przyspieszenie działalności gospodarczej/badania naukowe Zmniejszenie czasu działania aplikacji o 20-40%, przyspieszenie czasu do odkrycia i cykli rozwoju produktu.
Skuteczność operacyjna Zjednoczone zarządzanie, automatyczne dostarczanie zasobów i głęboka telemetria zmniejszają koszty użytkowania i minimalizują czas przestojów.
Ochrona inwestycji Kompatybilność z przeszłością i skalowalna architektura chronią istniejące inwestycje, zapewniając jednocześnie jasną drogę do przyszłych technologii.

Podsumowując,920-9B210-00FN-0D0jest nie tylko składnikiem, ale także czynnikiem umożliwiającym tworzenie wysokowydajnej, zbieżnej infrastruktury.Przekształca sieć z potencjalnego zobowiązania w strategiczne aktywa, które w pełni uwalniają moc nowoczesnych klastrów obliczeniowych..