Rozwiązanie techniczne karty serwerowej NVIDIA Mellanox MCX4121A-ACAT: Architektura RDMA/RoCE dla niskich opóźnień i maksymalnej przepustowości

March 9, 2026

Rozwiązanie techniczne karty serwerowej NVIDIA Mellanox MCX4121A-ACAT: Architektura RDMA/RoCE dla niskich opóźnień i maksymalnej przepustowości


1Analiza tła i wymagań projektu

Współczesne centra danych są pod ciągłą presją, aby obsługiwać coraz bardziej wymagające obciążenia pracą, w tym analizę w czasie rzeczywistym, rozproszone szkolenie w zakresie uczenia maszynowego,i wysokiej wydajności pamięci masowej określonej oprogramowaniem. Tradycyjne architektury sieci, w dużym stopniu zależne od stosu TCP/IP, wprowadzają znaczącą opóźnienie i koszty CPU.Podejście "kernel bypass" staje się nie tylko zaletą, ale konieczność.Architekci sieci i inżynierowie pamięci masowej poszukują rozwiązań, które mogą uwolnić pełny potencjał architektury NVMe-oF i mikroserwisów bez konieczności całkowitego remontu infrastrukturyPodstawowe wymagania zidentyfikowane w typowym wdrożeniu na dużą skalę obejmują opóźnienie poniżej 10 mikrosekund dla ruchu pamięci masowej, 40% redukcję kosztów ogólnych procesora dla sieci I/O,i zunifikowana struktura zdolna do przenoszenia zarówno standardowego ruchu TCP/IP, jak i ruchu RDMA o bardzo niskim opóźnieniu.

2Ogólne projektowanie architektury sieci i systemu

Zaproponowana architektura opiera się na nieszkodliwej, zbieżnej tkance Ethernet zaprojektowanej w celu obsługi zarówno standardowego ruchu LAN, jak i ruchu pamięci masowej na tej samej infrastrukturze fizycznej.Projekt wykorzystuje topologię leaf-spine z RoCE (RDMA over Converged Ethernet) -przystosowanymi przełącznikamiGłówne zasady projektowania obejmują:

  • Tkanina zbieżna:Jedna sieć 25GbE przewozi wszystkie typy ruchu, eliminując potrzebę oddzielnych sieci pamięci masowej i danych (konwergencja LAN/SAN).
  • Fundacja Ethernet Lossless:Wdrożenie priorytetowej kontroli przepływu (PFC, IEEE 802.1Qbb) i wzmocnionej selekcji transmisji (ETS, IEEE 802.1Qaz) w celu stworzenia klasy usług bez strat dla ruchu RDMA,zapobieganie upadkom pakietów, które w przeciwnym razie spowodowałyby katastrofalne wzrosty opóźnienia.
  • RDMA od końca do końca:Wdrożenie RoCEv2, który działa na warstwie sieciowej, umożliwiając RDMA przekraczanie granic L3 i skalowanie poza pojedynczą domenę nadawczą, w przeciwieństwie do RoCEv1.

W tej architekturze punkt końcowy serwera jest najważniejszym elementem.NVIDIA Mellanox MCX4121A-ACATadapter serwera odgrywa swoją kluczową rolę, pełniąc rolę inteligentnego interfejsu, który wykonuje protokół RoCE i rozładowuje złożone funkcje sieciowe z hosta CPU.

3. Rola NVIDIA Mellanox MCX4121A-ACAT w rozwiązaniu

W sprawieKarta adaptera MCX4121A-ACAT EthernetNa podstawie sterownika ConnectX-4 Lx, tenMCX4121A-ACAT ConnectX-4 Lx podwójny port 25GbE SFP28Adapter zapewnia przyspieszenie sprzętowe niezbędne do osiągnięcia celów projektu.

  • Silnik RoCE sprzętowy:Adapter realizuje cały protokół RoCEv2 w krzemowym, co oznacza, że operacje RDMA, w tym odczytywanie/zapisywanie w pamięci oraz wysyłanie/odbieranie czasowników są przetwarzane w całości na NIC,obejście jądra i wyeliminowanie przełączników kontekstowychJest to podstawowy mechanizm osiągania opóźnienia między aplikacjami poniżej 10 mikrosekund.
  • NVMe-oF Offload:W przypadku przewozu magazynowegoMCX4121A-ACATobsługuje NVMe over Fabrics (NVMe-oF) z RDMA. Uwolnia przetwarzanie pary kolejkowej NVMe, umożliwiając docelowi lub inicjatorowi przechowywania obsługę milionów IOPS z minimalną interwencją procesora.
  • Dynamiczne przerywanie moderacji:Adapter inteligentnie moderuje przerwy, łącząc je w oparciu o obciążenie ruchu.Zmniejsza to przeciążenie hosta CPU podczas scenariuszy wysokiej przepustowości przy jednoczesnym utrzymaniu niskiego opóźnienia dla wrażliwego ruchu poprzez umożliwienie przerw dla określonych kolejek do obejścia moderacji.
  • Wdrożenie przepisów dotyczących jakości usług (QoS):Obsługuje QoS oparte na sprzęcie, umożliwiając architektom przypisanie różnych klas ruchu (np. przechowywania, zarządzania, obliczeń) do różnych kolejek priorytetowych.Zapewnia to, że ruch RDMA otrzymuje gwarantowaną szerokość pasma i niską opóźnienie, nawet w czasie zatłoczenia sieci.

4Zalecenia dotyczące wdrożenia i skalowania

W celu zminimalizowania ryzyka zaleca się stopniowe podejście do wdrożenia.

  • Faza pilotażowa:Wdrożyć mały klaster serwerów pamięci masowej i węzłów obliczeniowych, każdy wyposażony wMCX4121A-ACAT, podłączony do dedykowanego przełącznika liści z funkcją RoCE, weryfikuje konfigurację PFC/ETS w celu zapewnienia bezstratnej tkaniny dla ruchu RoCE.
  • Integracja i testowanie:KonfiguracjaRozwiązanie karty adaptera Ethernet MCX4121A-ACATWykorzystuj polecane przez NVIDIA sterowniki i narzędzia, takie jaknajwybitniejszyw celu pomiaru opóźnienia wyjściowego (ib_send_lat) i szerokości pasma (ib_send_bw).
  • Skalowanie tkaniny:Po ustaleniu stabilności pilota, skalowanie do pełnej topologii leaf-spine. Upewnij się, że przełączniki kręgosłupa są również świadome RoCE, aby utrzymać bez straty oznakowania QoS w całej sieci.NVIDIA Mellanox MCX4121A-ACATumożliwia agregację łącza aktywnego/standby lub 802.3ad w celu redundancji i zwiększenia przepustowości.
  • Kontrola zgodności:Zawsze sprawdzajKompatybilny z MCX4121A-ACATWersje sprzętowe i oprogramowania układowegoSpecyfikacje MCX4121A-ACATa takżeArkusz danych MCX4121A-ACATw celu zapewnienia kompatybilności z płytami głównymi serwerów, ustawieniami BIOS i firmware'em przełącznika.Cena MCX4121A-ACATW celu zapewnienia odpowiedniego dostępu do tych produktów należy zapewnić dostęp do nich za pośrednictwem upoważnionych dystrybutorów, zwłaszcza w przypadku planowania dużych projektów.MCX4121A-ACAT na sprzedażzakupów.

5. Monitoring operacyjny, rozwiązywanie problemów i optymalizacja

Utrzymanie maksymalnej wydajności wymaga proaktywnego monitorowania i solidnego zrozumienia zachowania tkanin RoCE.

  • Monitoring ruchu RDMA:Wykorzystaj narzędzia takie jaketol,mlxstat, i NVIDIAUFM (Unified Fabric Manager)Krytyczne metryki obejmują: spadek pakietów RoCE, liczbę klatek PFC i wykorzystanie przepustowości PCIe.
  • Izolacja usterek:Wysokie opóźnienie w ruchu RDMA jest prawie zawsze spowodowane upadkami pakietów z powodu zatłoczenia.wskazuje na wąskie gardła w dół (e.g., na porcie wyjścia przełącznika).MCX4121A-ACATZaawansowane liczniki mogą pomóc ustalić dokładne źródło zatłoczenia.
  • Dostrajanie wydajności:
    • Wielkość MTU:Zwiększenie do 9000 bajtów (jumbo frames) zarówno na adapterze, jak i przełącznikach w celu zmniejszenia kosztów przesyłania danych i poprawy dużej wydajności I/O.
    • Skalizowanie strony odbioru (RSS):Upewnij się, że RSS jest skonfigurowany tak, aby rozdzielał ruch w wielu rdzeniach procesora, umożliwiając adapterowi obsługę wysokich prędkości pakietów na sekundę (PPS).
    • Puffer:Dostosowanie buforów odbioru i przesyłania adaptera w oparciu o charakterystykę obciążenia pracą (np. większe bufory do przechowywania, mniejsze do HPC).

6Wniosek i ocena wartości

W sprawieMCX4121A-ACATDzięki integracji adaptera z dobrze zaprojektowaną tkaniną RoCEv2organizacje mogą osiągnąć transformacyjne wyniki: przepustowość serwera może być zmaksymalizowana, ponieważ procesor jest uwolniony od kosztów sieciowych; opóźnienie jest znacznie zmniejszone do jednocyfrowych mikrosekund, umożliwiając aplikacje w czasie rzeczywistym;i całkowity koszt posiadania jest niższy dzięki konwergencji infrastrukturyW przypadku architektów planujących mapę drogową 25GbE,MCX4121A-ACATstanowi strategiczną inwestycję w wydajność i wydajność, wspieraną przez solidny ekosystem NVIDIA Mellanox.