Praktyka zastosowań: NVIDIA Mellanox MCX631102AN-ADAT RDMA/RoCE Transport niskiego opóźnienia i usprawnienie przepustowości serwera

April 27, 2026

W rozproszonym pamięci masowej, obliczeniach o wysokiej wydajności i klastrach szkoleniowych sztucznej inteligencji opóźnienie sieci i koszty CPU stały się głównymi wąskimi gardłami ograniczającymi wydajność serwera.Dostawca usług w chmurze niedawno zmodernizował swój backend pamięci masowej NVMe-oF, wybierającNVIDIA Mellanox MCX631102AN-ADATDzięki wdrożeniu RDMA przez Converged Ethernet (RoCEv2) osiągnęli transport z niskim opóźnieniem od końca do końca i znaczące zyski w przepustowości serwera.Niniejsze badanie przypadku analizuje funkcjonowanie adaptera w środowisku produkcyjnym.

Temat i wyzwanie: wąski gardło w stosunku do protokołu TCP/IP

Istniejąca infrastruktura 25GbE dostawcy obsługiwała ruch pamięci masowej przy użyciu tradycyjnego stosu oprogramowania TCP/IP.Wykorzystanie procesora do enkapsułowania i odkapsułowania pakietów przekroczyło 40%, co prowadzi do opóźnień przechowywania powyżej 200 μs i znacznie zmniejszonej zdolności obliczeniowej na serwerach aplikacji.zmniejszenie zakłóceń procesoraPo przeanalizowaniu wielu opcji wybraliMCX631102AN-ADAT ConnectX-6 Lx podwójny port 25GbE SFP28jako podstawowy sprzęt do renowacji tkanin magazynowych.

Rozwiązanie i wdrożenie: RDMA/RoCEv2 z obciążeniami sprzętowymi

Wdrożenie zastąpiło wszystkie serwery z przestrzenią pamięci masowejKarta adaptera Ethernet MCX631102AN-ADAT, działający w trybie bez strat RoCEv2 (za pomocą ECN i PFC).

Włączenie SR-IOV i dedykowanie funkcji wirtualnych (VF) do maszyn wirtualnych do przechowywania danych, pominąć stos sieciowy hiperwizorów
Konfiguracja NVMe over Fabrics (NVMe-oF) z transportem RDMA, całkowicie eliminując koszty TCP
Progi buforowe przełączników tuningowych dla ruchu RoCE bez strat 25GbE w topologii leaf-spine

W sprawieSpecyfikacje MCX631102AN-ADAT .

Wymierzone zyski z wyników i korzyści operacyjne

Po migracji doNVIDIA Mellanox MCX631102AN-ADAT- oparte na tkaninach, odnotowano następujące wskaźniki:

Metryczny	Przed (TCP/IP 25GbE)	Po (RoCEv2 z MCX631102AN-ADAT)
NVMe-oF czytania opóźnienia (P99)	215 μs	18 μs
Wykorzystanie procesora (drogę przechowywania danych)	41% (nasycone pojedynczym rdzeniem)	7% (rozmieszczone w rdzeniach)
Zgromadzenie przepustowości serwera (RX+TX)	42 Gbps (ograniczone oprogramowaniem)	490,8 Gbps (prędkość linii)
Przejście małych pakietów (64B)	8.1 Mpps	37.5 Mpps (sprzęt sterujący przepływem)

Inżynierowie zauważyli, żeMCX631102AN-ADAT rozwiązanie karty adaptera Ethernetdostarczone przewidywalne opóźnienie końcowe odpowiednie dla baz danych analitycznych w czasie rzeczywistym. Ponadto uwolnione rdzenie CPU zostały przydzielone do obciążeń roboczych aplikacji,zwiększenie całkowitej gęstości najemców o około 24% na tych samych serwerach fizycznych.

Kompatybilność i integracja ekosystemów

Podczas rozszerzania rozmieszczenia zespół operacyjny zweryfikował, że adapter jestKompatybilny z MCX631102AN-ADATW celu planowania zamówień, odwoływali się oni do programu NVIDIA Spectrum (profile RoCE bez strat), a także do komutatorów ToR zewnętrznych od Arista i Cisco z konfiguracją DCBX.Arkusz danych MCX631102AN-ADATW pierwszych badaniach masowych potwierdzono, że:Cena MCX631102AN-ADATpozostaje konkurencyjna w porównaniu z podobnymi smartNIC, z wieloma dystrybutorami,MCX631102AN-ADAT na sprzedażw ramach standardowych umów o wielkości.

Podsumowanie i perspektywy

Przykład produkcyjny wyraźnie dowodzi, żeMCX631102AN-ADATumożliwia fundamentalną zmianę z sieci pamięci masowej powiązanych z TCP na tkaniny przyspieszone RDMA bez konieczności całkowitego przebudowy infrastruktury 100GbE.MCX631102AN-ADAT ConnectX-6 Lx podwójny port 25GbE SFP28Projekty, organizacje mogą podwoić efektywny przepustowość dla ładunków pracy wrażliwych na opóźnienie, przy jednoczesnym odzyskaniu znacznych zasobów CPU.Ten sam wzór wdrożenia będzie dotyczył rozproszonych ram uczenia maszynowego (NCCL over RoCE) i aplikacji o stanie opartym na mikroserwisach.Dla architektów oceniających ulepszenia 25GbE,NVIDIA Mellanox MCX631102AN-ADATStanowi sprawdzony, wytrzymały w produkcji blok budowlany dla sieci centrów danych o wysokiej wydajności i niskim opóźnieniu.