NVIDIA Mellanox MCX653106A-HDAT Karta Serwerowa Biała Księga Techniczna

April 30, 2026

NVIDIA Mellanox MCX653106A-HDAT Karta Serwerowa Biała Księga Techniczna

Niniejsza książka techniczna przeznaczona jest dla architektów sieci, inżynierów przedsprzedażowych i menedżerów operacyjnych.sieci centrów danych o niskim opóźnieniu wykorzystująceNVIDIA Mellanox MCX653106A-HDATNIC serwera, ze szczególnym uwzględnieniem transportu RDMA/RoCE i mierzalnych zysków przepustowości serwera.

1. Analiza tła i wymagań projektu

Nowoczesne obciążenia pracą w centrach danych, w tym tkaniny pamięci masowej NVMe-oF, rozproszone szkolenia w zakresie sztucznej inteligencji, handel wysoką częstotliwością i analityka w czasie rzeczywistym, stanowią ekstremalne wymagania w zakresie infrastruktury sieciowej.Tradycyjne przetwarzanie stosów TCP/IP wprowadza trzy podstawowe wąskie gardła: wysokie koszty operacyjne procesora (często przekraczające 50% cykli rdzenia), zmienne opóźnienie ze względu na ograniczenia obejścia jądra i zmniejszona skuteczna przepustowość z tytułu kosztów operacyjnych przetwarzania protokołu.Organizacje wymagają rozwiązania, które zapewnia przepustowość linii z opóźnieniem poniżej mikrosekundy, jednocześnie uwalniając zasoby CPU do logiki aplikacjiKluczowe wymagania obejmują RDMA z wyładowaniem sprzętu, transport bez strat RoCE, bezproblemową integrację z istniejącymi tkaninami Ethernet,i kompleksowe narzędzia operacyjne do monitorowania i rozwiązywania problemów.

2Ogólne projektowanie architektury sieci i systemu

Zaproponowana architektura przyjmuje topologię Clos (spine-leaf) optymalizowaną dla transportu RoCE.Zwiększona selekcja transmisji) skonfigurowana w celu zagwarantowania zachowania bez strat dla ruchu RDMA. Przełączniki kręgosłupa umożliwiają niezablokowanie komunikacji między dowolnym elementem tkaniny.Karta adaptera MCX653106A-HDAT Ethernet, który łączy się z przełącznikami liści poprzez podwójne porty 100GbE skonfigurowane w połączeniu aktywnym-aktywnym.Architektura oddziela ruch RDMA (dedykowana kolejka priorytetowa z włączonym PFC) od regularnego ruchu TCP/IP (w kolejce najlepszego wysiłku)Segmentacja VLAN izoluje domeny RDMA, podczas gdy routing obsługuje komunikację między podsieciami w razie potrzeby.

3Rola i kluczowe cechy NVIDIA Mellanox MCX653106A-HDAT

W sprawieMCX653106A-HDAT ConnectX adapter PCIe karta sieciowajest podstawą tego rozwiązania. Zbudowana na architekturze ConnectX-6 z interfejsem PCIe 4.0 x16zapewnia przepustowość 100GbE w dwóch portach (lub 200GbE w jednym porcie) z opóźnieniem poniżej 600ns w obciążeniach roboczych RDMAKluczowe cechy wykorzystane w tym projekcie obejmują:

  • Oprogramowanie RDMA & RoCE Offload:Wspiera zarówno RoCE v1 jak i v2.
  • Akcelerator NVMe-oF:Logika sprzętowa, która przyspiesza polecenia NVMe, zmniejszając opóźnienie dostępu do pamięci masowej o ponad 80% w porównaniu z celami oprogramowania.
  • Programatyczna ścieżka danych (ASAP2):Umożliwia elastyczne przetwarzanie pakietów i rozładowywanie sieci nakładanych (VXLAN, GENEWA).
  • Wielogost i GPU Direct RDMA:Bezpośrednia komunikacja peer-to-peer pomiędzy procesorami graficznymi w całym układzie bez interwencji procesora, która jest kluczowa dla klastrów sztucznej inteligencji.
  • Telemetria i kontrola zatłoczenia:Monitoring przepływów oparty na sprzęcie, oznakowanie ECN i ograniczanie dynamicznej szybkości.

Inżynierowie analizującyArkusz danych MCX653106A-HDATW tym celu opracowano nowe systemy obsługi danych, które będą obsługiwane zarówno przez standardy, jak i przez OCP 3.0, obejmujące systemy operacyjne (distrybucje Linuksa z MLNX_OFED, Windows, ESXi) oraz szeroką kompatybilność serwerów.Specyfikacje MCX653106A-HDATpotwierdzają również maksymalne zużycie energii 75 W i temperatury robocze od 0°C do 55°C, odpowiednie do zastosowań o dużej gęstości.

4. Zalecenia dotyczące wdrażania i skalowania (z topologią)

Wdrożenie następuje w sposób stopniowy.

Składnik Konfiguracja Ilość
Węzły obliczeniowe/przechowawcze Podwójny gniazdek Intel/AMD, 256 GB+ RAM, napędy NVMe 16
NIC na węzeł MCX653106A-HDAT(podwójny port 100GbE) 16
Przełączniki liści Mellanox SN3700 (32x 100GbE, włączony DCB) 2
Przełączniki kręgosłupa Mellanox SN3700 (100GbE uplinks) 1 (skala do 2 dla zwolnień)

Kroki wdrożenia:

  1. Krok 1 Validacja:Potwierdzenie.Kompatybilny z MCX653106A-HDATUżyj matrycy kompatybilności zArkusz danych MCX653106A-HDAT.
  2. Krok 2  Instalacja sterownika:Wdrożyć pakiet sterowników MLNX_OFED (minimalna wersja 5.8) we wszystkich węzłach.
  3. Krok 3  Konfiguracja tkaniny:Włącz PFC (priorytet 3 dla RDMA) i ETS na przełącznikach liści.
  4. Krok 4 RoCE Setup:Konfiguracja każdegoKarta adaptera MCX653106A-HDAT Ethernetz RoCE v2 (routable) lub v1 (non-routable). Ustawić tryb GID na RoCE v2 z adresowaniem IPv4.
  5. Krok 5  Weryfikacja:Uruchom testy ib_write_bw i ib_send_lat pomiędzy węzłami w celu sprawdzenia przepustowości i opóźnienia.Perfekcjaa takżemlnx_perf.

W celu skalowania poza 16 węzłów, przejście na topologię pleców z redundantnymi przełącznikami pleców obsługującymi do 128 węzłów.Rozwiązanie karty adaptera MCX653106A-HDAT EthernetRoCE wykorzystuje ECMP do rozkładu obciążenia na wielu ścieżkach.

5. Operacje, monitorowanie, rozwiązywanie problemów i optymalizacja

Efektywne działanie środowisk RDMA/RoCE wymaga specjalistycznych narzędzi.

  • Wykrycie zatłoczenia:Monitoruj ramy przerwy PFC na port za pomocą telemetrii przełącznika (np. Mellanox SHARP).
  • Wzorzec wyników:Użyciemlx5cmda takżeetol -SZbierać liczniki RDMA w kolejce, śledzić zakończenia i retransmisje.
  • ECN & DCQCN:Włączyć wyraźne powiadomienie o zatłoczeniu (ECN) na przełącznikach i skonfigurować dynamiczne parametry kontroli zatłoczenia (DCQCN) naMCX653106A-HDATkierowca (np.dcqcn_r_ai=40,dcqcn_r_hai=10)).
  • Analiza dziennika:Przegląd/var/log/wiadomościw przypadku awarii połączenia RDMA (np. "mlx5_core": nie udało się utworzyć QP). Sprawdź, czy indeksy GID pasują między punktami końcowymi.
  • Aktualizacje oprogramowania:Regularnie aktualizować oprogramowanie NIC za pośrednictwem/Miniedżer mlxfwm.Specyfikacje MCX653106A-HDATZalecamy podstawę oprogramowania XX.36.1010 lub nowsza dla optymalnej wydajności RoCE.
  • Planowanie zdolności:W przypadku organizacji oceniającychCena MCX653106A-HDATa takżeMCX653106A-HDAT na sprzedażOgraniczenia w zakresie wielkości, tempo wzrostu projektów w zakresie ruchu RDMA oraz współczynniki nadpłaty w przypadku przełączników planów (zwykle 3: 1 dla tkanin magazynowych).

Powszechny scenariusz rozwiązywania problemów: jednokierunkowe wysokie opóźnienie z zerową stratą pakietów często wskazuje na błędne ustawienia progów ECN lub asymetryczne ustawienia PFC.mlnx_qosweryfikacji współrzędnych trybu zaufania i priorytetowego DSCP we wszystkich elementach sieci.

6Podsumowanie i ocena wartości

W sprawieNVIDIA Mellanox MCX653106A-HDATserwer NIC zapewnia gotową do produkcji podstawę do wdrażania wysokowydajnych sieci RDMA/RoCE.

  • Wydajność:Przepustowość do 200 Gb/s na adapter z opóźnieniem poniżej mikrosekundy, umożliwiająca skalowanie pamięci masowej i rozproszone obciążenia obliczeniowe wcześniej ograniczone przez koszty TCP.
  • Wydajność:Zwolnienie sprzętu redukuje zużycie procesora związanego z siecią z > 50% do poniżej 15%, uwalniając rdzenie do przetwarzania aplikacji.
  • TCO:W sprawieRozwiązanie karty adaptera MCX653106A-HDAT EthernetZmniejsza wymaganą liczbę węzłów dla danego celu przepustowości, obniżając kapitał i koszty operacyjne.Cena MCX653106A-HDAT, należy wziąć pod uwagę okres odzysku wynoszący 9-12 miesięcy wyłącznie z tytułu zwiększenia wydajności.
  • Gotowość na przyszłość:Wsparcie dla PCIe 5.0 (kompatybilne z przeszłością) i programowalność za pośrednictwem DOCA zapewniają ochronę inwestycji, ponieważ prędkości centrum danych migrują do 200/400GbE.

Dla architektów poszukujących testowanego w produkcji wzoru projektowego, rozwiązanie to płynnie integruje się z istniejącymi operacjami Ethernet, jednocześnie wykorzystując pełny potencjał RDMA.Arkusz danych MCX653106A-HDATW celu uzyskania wskazówek dotyczących zamówień publicznych, w tym aktualnychCena MCX653106A-HDATa takżeMCX653106A-HDAT na sprzedażCzas realizacji, kontakt z autoryzowanymi partnerami dystrybucji NVIDIA Mellanox.