Mellanox InfiniBand HPC Solution: Przełomowa wydajność sieci superkomputerów NVIDIA

Rozwiązania sieciowe HPC: InfiniBand umożliwia przełomowe osiągi superkomputerów

September 27, 2025

Rozwiązania sieci obliczeniowych o wysokiej wydajności: jak Mellanox InfiniBand umożliwia przełomowe osiągi superkomputerów

1Nowa era wymogów obliczeniowych

Granice nauki, inżynierii i sztucznej inteligencji są rozszerzane dzięki obliczeniom wysokiej wydajności (HPC).Od symulacji modeli klimatycznych i odkrywania nowych leków po szkolenie masywnych modeli generujących sztuczną inteligencję, złożoność i skalę tych obciążeń roboczych rosną w sposób wykładniczy.sieci superkomputerówinfrastruktury, która musi skutecznie przenosić ogromne zestawy danych między tysiącami węzłów obliczeniowych, nie stając się wąskim gardłem.To centralny układ nerwowy nowoczesnego superkomputera..

2. Kluczowe wąskie gardła sieciowe w HPC

Tradycyjne architektury sieciowe często nie są w stanie nadążyć za wymaganiami komputerowania ekzaskalowego i sztucznej inteligencji.

Wrażliwość na opóźnienie:Ciasno połączone aplikacje równoległe, które wykorzystują interfejs przekazywania wiadomości (MPI), są bardzo wrażliwe na opóźnienie.
Nieprzewidywalna przepustowość:Przeciążenie sieci może powodować nieregularną wydajność, co prowadzi do tego, że węzły obliczeniowe siedzą bezczynnie w oczekiwaniu na dane, marnując cenne zasoby obliczeniowe i zwiększając czas zakończenia pracy.
Nieefektywne zbiorowe operacje:Operacje takie jak redukcje i bariery, które obejmują wiele węzłów, mogą zużywać znaczną ilość zasobów CPU hosta, odprowadzając cykle z dala od podstawowych zadań obliczeniowych.
Granice skalowalności:Wiele sieci zmaga się z utrzymaniem wydajności i stałej opóźnienia, ponieważ rozmiary klastrów skalowane są do dziesiątek tysięcy węzłów, utrudniając ścieżkę do eksascale i dalej.

3Rozwiązanie Mellanox InfiniBand: Architektura od końca do końca

NVIDIAMellanox InfiniBandOferuje specjalnie zaprojektowaną, end-to-end platformę sieciową zaprojektowaną specjalnie do przezwyciężania tych problemów.HPCJest to coś więcej niż tylko NIC; jest to całościowa tkanina, która inteligentnie przyspiesza przepływ danych i obliczenia.

Kluczowe innowacje technologiczne:

Komputery sieciowe (NVIDIA SHARPTM):Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) jest rozwiązaniem umożliwiającym wykonywanie operacji zbiorowych (np. MPI Allreduce,bariera) od procesora do sieci przełącznika. To drastycznie zmniejsza opóźnienie i uwalnia zasoby hosta CPU do obliczeń aplikacji.
Odległy bezpośredni dostęp do pamięci (RDMA): Mellanox InfiniBandposiada rodzimą obsługę RDMA, umożliwiającą przenoszenie danych bezpośrednio z pamięci jednego węzła do drugiego bez zaangażowania procesora.Ta technika "obijania jądra" ma zasadnicze znaczenie dla osiągnięcia ultra niskiej opóźnienia i dużej przepustowości.
Adaptacyjna trasa i kontrola zatłoczenia:Tkanina dynamicznie uruchamia ruch w hotspotach, zapewniając jednolite wykorzystanie sieci i zapobiegając zatłoczeniu, zanim wpłynie to na wydajność aplikacji.Prowadzi to do przewidywalnej i spójnej wydajności.
Bezproblemowa integracja GPU (GPUDirect®):Technologie takie jak GPUDirect RDMA umożliwiają przepływ danych bezpośrednio między pamięcią GPU różnych serwerów w tkance InfiniBand,który jest kluczowy dla przyspieszenia szkolenia wielowizowego procesora graficznego i wielowęzłowego sztucznej inteligencji oraz obciążeń naukowych obliczeń.

4. Ilościowe wyniki i zwiększenie wydajności

RozmieszczenieMellanox InfiniBandw wiodących ośrodkach superkomputerów i instytucjach badawczych przyniósł dramatyczne, mierzalne wyniki:

Metryczny	Poprawa z Mellanox InfiniBand	Wpływ na obciążenia pracy HPC
Wydajność aplikacji	Do 2,5 razy szybciej	Zmniejszenie czasu realizacji rozwiązań dla złożonych symulacji i prac szkoleniowych w zakresie sztucznej inteligencji.
Poziom opóźnienia	Pod 1 mikrosekundę od końca do końca	Praktycznie eliminuje opóźnienia komunikacyjne dla aplikacji MPI.
Wykorzystanie procesora	Do 30% redukcja kosztów operacyjnych procesora	Uwolnia miliony godzin CPU dla obliczeń zamiast komunikacji.
Skalowalność	Wspierane w klastrach z 10 000+ węzłami	Zapewnia sprawdzoną ścieżkę do wdrażania procesów komputerowych na ekzaskalach.
Wykorzystanie tkanin	Wydajność ponad 90%	Maksymalizuje zwrot z inwestycji w infrastrukturę.

5Wniosek: Wyposażenie nowej generacji odkrywania

Mellanox InfiniBandUstalono się jako złoty standard dlasieci superkomputerów, zapewniając niezbędną wydajność, skalowalność i inteligencję wymaganą przez najbardziej wymagające firmy na świecieHPCRozwiązując kluczowe wąskie gardła sieciowe dzięki innowacjom, takim jak komputerowanie w sieci, umożliwia to naukowcom szybsze osiągnięcie przełomowych wyników.To nie tylko połączenie; jest niezbędnym akceleratorem ludzkiej wiedzy i innowacji.