Podręcznik technicznych rozwiązań: NVIDIA Mellanox MCX623106AN-CDAT dla optymalizacji niskiej opóźnienia i przepustowości RDMA/RoCE
March 11, 2026
Nowoczesne architektury centrów danych są pod stałą presją, aby zapewnić niższą opóźnienie i wyższy przepustowość przy jednoczesnym utrzymaniu wydajności procesora dla obciążeń roboczych aplikacji.z jego nieodłączną nadwyżką protokołu, często nie spełnia wymogów obliczeniowych o wysokiej wydajności (HPC), sztucznej inteligencji (AI) i usług finansowych.Niniejsza książka techniczna przedstawia kompleksowe rozwiązanie oparte naMCX623106AN-CDATAdaptator serwera, koncentrujący się na wdrożeniu RDMA przez Converged Ethernet (RoCE) w celu znacznego zmniejszenia opóźnienia i zwiększenia przepustowości serwera.i menedżerów operacji, dokument ten przedstawia architekturę, strategie wdrażania i najlepsze praktyki operacyjne w zakresie wykorzystania tej zaawansowanej technologii.
1. Analiza tła i wymagań projektu
Największym wyzwaniem, z jakim boryka się to rozwiązanie, jest "podatek od danych" nałożony przez staki sieciowe oparte na jądrze.szkolenia w zakresie uczenia maszynowego, czyli analityki w czasie rzeczywistym cykle procesora są marnowane na przetwarzanie pakietów, obliczenia sumy kontrolnej i przełączniki kontekstowe.
- Ultra niska opóźnienie:Opóźnienie aplikacji od końca do końca musi być zminimalizowane, najlepiej w zakresie poniżej 10 mikrosekund dla komunikacji między serwerami.
- Wyładowanie procesora:Tkanina sieciowa musi obsługiwać ruch danych, uwalniając rdzenie procesorów do wykonywania wymagających obliczeń.
- Skalowalność:Architektura musi wspierać płaską tkankę o dużej przepustowości, która może skalować od dziesiątek do tysięcy węzłów bez pogorszenia wydajności.
- Oparte na standardachRozwiązanie powinno wykorzystywać istniejącą infrastrukturę Ethernet w celu ochrony inwestycji przy jednoczesnym wprowadzeniu zaawansowanych możliwości.
W sprawieNVIDIA Mellanox MCX623106AN-CDATW związku z powyższym należy zwrócić uwagę na fakt, że systemy zarządzania bezpieczeństwem i bezpieczeństwemKarta adaptera MCX623106AN-CDAT Ethernet, jest specjalnie zaprojektowany w celu umożliwienia RDMA w standardowych sieciach Ethernet.
2. Ogólne projektowanie architektury sieci
Proponowana architektura to tkanina liści-kręgosłupa zaprojektowana do bezstratnego środowiska RoCE. The key principles include a non-blocking core with sufficient oversubscription ratios and the enablement of Priority Flow Control (PFC) and Explicit Congestion Notification (ECN) across all network devicesProjekt integruje ruch obliczeniowy, pamięci masowej i zarządzania na jednolitą, szybką tkankę Ethernet.
W centrum tego projektu znajdują się węzły serwera, każdy wyposażony wMCX623106AN-CDAT ConnectX adapter PCIe karta sieciowaAdapter ten łączy się z przełącznikami liści poprzez łącza 25GbE lub 100GbE, w zależności od gęstości obciążenia.zapewnienie ścieżek typu any-to-any o niskim opóźnieniuCele pamięci masowej, takie jak matryce NVMe-oF, są również podłączone do tej samej tkaniny za pomocą kompatybilnych adapterów, umożliwiających bezpośredni dostęp do pamięci z węzłów obliczeniowych.
3. Rola NVIDIA Mellanox MCX623106AN-CDAT w rozwiązaniu
W sprawieMCX623106AN-CDATjest nie tylko interfejsem sieciowym; jest to zaawansowany prekursor jednostki przetwarzania danych (DPU), który obsługuje wszystkie aspekty komunikacji RDMA.
- Silnik RDMA/RoCE:Sprzęt adaptera implementuje protokół RoCEv2, enkapsułując transakcje RDMA przez UDP/IP. Umożliwia to rufową komunikację o niskim opóźnieniu bez zaangażowania hosta CPU.
- Transport Wyładowanie:Zarządza tworzeniem połączeń, sekwencjonowaniem pakietów i niezawodnym transportem, prezentując prosty interfejs pamięci do pamięci dla aplikacji.
- Interfejs PCIe Gen4:Dzięki interfejsowi hosta PCIe 4.0 o dużej przepustowości adapter zapewnia, że dane sieciowe mogą być przenoszone do i z pamięci systemowej w tempie linii, zapobiegając wewnętrznym wąskim gardłom.Specyfikacje MCX623106AN-CDATpotwierdzić jego zdolność do pełnego nasycenia połączeń dużych prędkości.
4. Zalecenia dotyczące wdrażania i skalowania
Powodzenie w wdrożeniu wymaga starannego skonfigurowania zarówno tkanki sieciowej, jak i końcowych hostów.
- Przygotowanie tkaniny:Przed wdrożeniem serwerów należy skonfigurować wszystkie przełączniki na ścieżce dla bez strat RoCE.1Qau) dla zarządzania zatłoczeniami.
- Instalacja sterownika i oprogramowania:Zainstaluj najnowsze sterowniki NVIDIA WinOF-2 lub MLNX_OFED, aby zapewnić pełne wsparcie funkcjiMCX623106AN-CDAT. Sprawdź czy oprogramowanie sprzętowe pasuje do wersji określonej wArkusz danych MCX623106AN-CDAT.
- Konfiguracja jakości usługi (QoS):Wdrożyć politykę QoS w celu ustalenia priorytetów ruchu RoCE (np. wartości DSCP) i zapewnienia, że nie ma on problemów z regularnym ruchem TCP.Typowa topologia obejmuje grupowanie węzłów pamięci masowej i obliczeniowej w tej samej domenie RoCE dla optymalnej wydajności.
- Rozważania dotyczące skalowalności:W miarę rozwoju tkaniny, użyj zaawansowanych funkcji adaptera, takich jak "RoCE Adaptive Routing", aby utrzymać niską opóźnienie na wielu ścieżkach.Kompatybilny z MCX623106AN-CDATz istniejącą infrastrukturą przełącznika.
5. Monitoring operacyjny, rozwiązywanie problemów i optymalizacja
Utrzymanie tkanki RDMA wymaga szczególnych narzędzi i praktyk.MCX623106AN-CDAT.
- Narzędzia monitorowania:Wykorzystaj Mellanox NEO firmy NVIDIA lub standardowe narzędzia takie jak'mlxlink' i'mlxconfig' do sprawdzania integralności łącza, temperatury i liczników błędów.Badania SNMP mogą śledzić statystyki interfejsu specyficzne dla ruchu RoCE.
- Kluczowe wskaźniki:Monitor dla ram przerwy PFC, które wskazują ciśnienie bufora w tkaninie.
- Aktualizacje oprogramowania i sterowników:Regularnie sprawdzaj aktualizacje oprogramowania stałego adaptera.MCX623106AN-CDAT rozwiązanie karty adaptera Ethernet.
- Dostrajanie wydajności:Dostosowanie parametrów, takich jak moderacja przerwy i ustawienia koalicji, aby zrównoważyć opóźnienie i wykorzystanie procesora w oparciu o określone profile aplikacji.
6Podsumowanie i ocena wartości
Rozwiązanie techniczne koncentruje się wokółNVIDIA Mellanox MCX623106AN-CDATzapewnia jasną i wykonalną drogę do osiągnięcia komunikacji o niskiej opóźnieniu opartej na RDMA/RoCE i znaczących zysków w przepustowości serwera.Poprzez obciążenie przetwarzania sieciowego dedykowanym sprzętem i umożliwienie bezpośredniego dostępu do pamięci, organizacje mogą w pełni wykorzystać potencjał swoich aplikacji.Cena MCX623106AN-CDATW odniesieniu do zaoszczędzonych cykli procesora i osiągniętej wydajności zwrot z inwestycji jest przekonujący.MCX623106AN-CDAT na sprzedażlub planujący nową instalację, ten adapter wyróżnia się jako kluczowy element dla nowej generacji, wydajnych centrów danych.

