NVIDIA Mellanox MQM8790-HS2F w akcji: Optymalizacja połączeń między sieciami o niskim opóźnieniu dla klastrów RDMA/HPC/AI

April 10, 2026

Tło i wyzwanie: Kiedy sieć staje się wąskim gardłem

Szybko rozwijająca się organizacja badawcza AI borykała się ze znanym problemem: ich klaster ponad 200 GPU, używany do trenowania dużych modeli językowych i symulacji dynamiki molekularnej, doświadczał nieprzewidywalnych czasów zakończenia zadań. Pomimo potężnych węzłów obliczeniowych, istniejąca sieć Ethernet 100 Gb/s cierpiała z powodu skoków opóźnień końcowych, utraty pakietów w scenariuszach incast i wysokiego narzutu CPU z powodu tradycyjnego przetwarzania stosu TCP/IP. Zespół potrzebował rozwiązania, które mogłoby zapewnić spójne opóźnienia poniżej mikrosekundy, w pełni obsługiwać RDMA dla GPU Direct i skalować się bez kosztownych modernizacji. Po ocenie dostępnych opcji, wybrali迈络思 (NVIDIA Mellanox) MQM8790-HS2F jako podstawowy element ich sieci klastrowej nowej generacji.

Rozwiązanie i wdrożenie: Integracja przełącznika InfiniBand MQM8790-HS2F

Organizacja wdrożyłaprzełącznik InfiniBand MQM8790-HS2Fw dwupoziomowej topologii fat-tree, łącząc 128 węzłów obliczeniowych (każdy wyposażony w adaptery NVIDIA ConnectX-6 HDR) i 4 węzły pamięci masowej. Dzięki 40 portom QSFP56 działającym z prędkością 200 Gb/s HDR, pojedynczyNVIDIA Mellanox MQM8790-HS2Fzapewnił 16 Tb/s nieblokującej przepustowości przełączania – wystarczającej do zastąpienia dwóch starszych przełączników Ethernet przy jednoczesnym zmniejszeniu złożoności okablowania. Wdrożenie wykorzystało natywne wsparcieMQM8790-HS2F 200Gb/s HDR 40-port QSFP56dla RDMA i GPUDirect, umożliwiając bezpośredni dostęp do pamięci między GPU na różnych serwerach bez interwencji CPU.

Kluczowe szczegóły implementacji obejmowały:

Adaptacyjne routowanie w celu automatycznego równoważenia ruchu na wielu ścieżkach, eliminując punkty gorące.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) do agregacji w sieci, przyspieszając operacje All-Reduce nawet 2,5-krotnie.
Kontrolę zatorów na poziomie przełącznika, zapobiegając blokowaniu na początku kolejki, powszechnemu w stratnych środowiskach Ethernet.

Przed zakupem zespół inżynierów przejrzałkartę katalogową MQM8790-HS2Fispecyfikacje MQM8790-HS2Fw celu potwierdzenia kompatybilności z istniejącymi kablami i transceiverami Mellanox. Ekosystemkompatybilny z MQM8790-HS2F– w tym kable optyczne i miedziane HDR – pozwolił im na ponowne wykorzystanie 40% poprzednich inwestycji w interkonekt, znacznie obniżając barierę modernizacji.

Wyniki i korzyści: Mierzalne zyski w wydajności i efektywności

Po migracji do sieci opartej naMQM8790-HS2Forganizacja udokumentowała trzy kategorie ulepszeń:

Redukcja opóźnień: Średnie opóźnienie MPI ping-pong spadło z 2,1 µs (Ethernet RoCE) do 0,82 µs, a opóźnienia końcowe zostały praktycznie wyeliminowane.
Przepustowość zadań: Rozproszone zadania trenowania (oparte na NCCL) zakończyły się o 37% szybciej dzięki zmniejszonemu narzutowi komunikacyjnemu i akceleracji SHARPv3.
Odciążenie CPU: RDMA przez InfiniBand zmniejszyło wykorzystanie CPU do sieci z ~15% do poniżej 2%, uwalniając rdzenie do obliczeń.

W benchmarku komunikacji all-to-all na 128 GPU,rozwiązanie przełącznika InfiniBand MQM8790-HS2Futrzymało 198 Gb/s na port z zerową utratą pakietów, w porównaniu do 112 Gb/s z 1,2% stratą w poprzedniej sieci Ethernet. W przypadku symulacji finansowych przeprowadzonych przez ten sam zespół, zmienność zadań została zmniejszona o 78%, co pozwoliło na bardziej rygorystyczne SLA i przewidywalny czas pracy.

Podsumowanie i perspektywy: Inwestycja przyszłościowa

To rzeczywiste wdrożenie pokazuje, żeMQM8790-HS2Fto coś więcej niż tylko bohater arkusza specyfikacji – zapewnia wymierne korzyści dla produkcyjnych obciążeń HPC i AI. Połączenie przepustowości 200 Gb/s HDR, 40 portów o dużej gęstości i zaawansowanych obliczeń w sieci przekształca ekonomię klastra, zmniejszając zarówno czas zakończenia zadań, jak i koszty operacyjne. Dla liderów IT oceniającychcenę MQM8790-HS2Fw stosunku do wzrostu wydajności, ten studium przypadku sugeruje zwrot z inwestycji poniżej 12 miesięcy, oparty wyłącznie na poprawie efektywności obliczeniowej.

Ponieważ organizacja planuje podwoić liczbę GPU do ponad 400 węzłów, już zarezerwowała środki na dodatkowejednostki MQM8790-HS2F na sprzedażw celu utrzymania nieblokującej architektury fat-tree. Zdolność przełącznika do mieszania prędkości HDR i EDR zapewnia płynną ścieżkę migracji w miarę stopniowego zastępowania starszych adapterów. Dla architektów projektujących klastry nowej generacji skoncentrowane na RDMA,NVIDIA Mellanox MQM8790-HS2Foferuje sprawdzone, gotowe do produkcji rozwiązanie bazowe, które skaluje się od działowych badań AI po superkomputery o skali exascale.