Rozwiązanie techniczne: NVIDIA Mellanox MCX631102AN-ADAT Server Adapter
April 27, 2026
Niniejsza książka techniczna stanowi kompleksowe odniesienie dla architektów sieci, inżynierów przedsprzedażowych i kierowników operacyjnych planujących wdrożenieNVIDIA Mellanox MCX631102AN-ADATrozwiązanie koncentruje się na wyeliminowaniu kosztów stacków TCP/IP, umożliwiając transport RDMA/RoCEv2 o niskim opóźnieniu,i maksymalizacja przepustowości serwera do przechowywania, bazy danych i obciążenia AI.
1. Analiza tła i wymagań projektu
Nowoczesne architektury centrów danych stoją przed trzema zbieżnymi wyzwaniami: gwałtownym wzrostem ruchu wschodu-zachodnia, przejściem na niezagregowane magazyny (NVMe-oF, vSAN),i potrzeba zachowania cykli procesora do logiki aplikacji zamiast przetwarzania sieciWdrożenia legacy 25GbE wykorzystujące tradycyjny TCP/IP cierpią z powodu wysokiego opóźnienia końcowego (500 μs dla operacji przechowywania), nadmiernego przetwarzania jądra na pakiet i nieefektywnego przepustowości małych pakietów.Podstawowym wymogiem jest niskie opóźnienie, tkanina bez strat umożliwiająca bezpośredni dostęp do pamięci między serwerami bez interwencji procesora, przy zachowaniu kompatybilności z istniejącą infrastrukturą Ethernet.
2Ogólne projektowanie architektury sieci i systemu
Proponowane rozwiązanie przyjmuje topologię dwustopniowego leaf-spine z konfiguracją RoCEv2 bez strat.
- Warstwa fizyczna:25GbE połączenia SFP28 z każdego serwera obliczeniowego/magazynowego do przełączników liści, 100GbE lub 400GbE połączenia w górę z liści do kręgosłupa
- Wyroby z włókien:Udostępniona tkanina Ethernet przewożąca zarówno ruch TCP standardowy, jak i przepływy bez strat RoCEv2, przy użyciu priorytetowania opartego na DSCP
- Kontrola przepływu:Kontrola przepływów priorytetowych (PFC) w odniesieniu do priorytetów bez strat, oznakowanie ECN dla powiadomienia o zagęszczeniu i negocjacje DCBX
- Strona hosta:Dedykowane gniazda PCIe 4.0 x16 dla każdegoKarta adaptera Ethernet MCX631102AN-ADAT, z włączonym SR-IOV dla środowisk wirtualizowanych
W przypadku wdrożeń NVMe-oF każdy serwer pamięci masowej obsługuje dwaMCX631102AN-ADAT ConnectX-6 Lx podwójny port 25GbE SFP28Adaptory: jeden dla ruchu aplikacji front-end i jeden dla ruchu replikacji i odbudowy back-end, zapewniając izolację błędów i oddzielenie QoS.
3. Rola i kluczowe cechy MCX631102AN-ADAT w rozwiązaniu
W sprawieMCX631102AN-ADATsłuży jako kluczowe urządzenie końcowe umożliwiające przyspieszenie RDMA po stronie hosta.
| Cechy | Korzyści funkcjonalne dla RDMA/przetworów |
|---|---|
| Transport sprzętu | RoCEv2, DCQCN, DCT, tag-matching |
| PCIe 4.0 x16 Interfejs | Wystarczająca szerokość pasma hosta dla łącznej prędkości linii 50 Gbps (25 Gbps na port) |
| Wektoryzowany silnik odbioru | Hardware scatter-gathering i header splitting |
| Bezpieczne buty i korzenie zaufania | Weryfikacja integralności oprogramowania układowego w przypadku wdrożeń NFV i usług finansowych wrażliwych pod względem bezpieczeństwa |
| SR-IOV z maksymalnie 256 VF | Bezpośrednie przekazywanie kolejek RoCE do systemów wirtualnych/containerów bez kosztów wirtualizacji hiperwizorów |
W odniesieniu doArkusz danych MCX631102AN-ADAT, adapter zapewnia również oznaczanie czasu sprzętowego (darmowy licznik znaczników czasu o rozdzielczości 1 ns), umożliwiając precyzyjne PTP/SyncE dla transakcji finansowych lub aplikacji telekomunikacyjnych.
4. Zalecenia dotyczące wdrażania i skalowania (typowa topologia)
W przypadku wdrożeń w obszarze brązowym zaleca się stopniowe podejście:
- Faza 1 WdrożenieMCX631102AN-ADATKonfiguracja portów przełącznika z priorytetami PFC 3 dla RoCE i 1 dla CNP, przy użyciu automatycznego negocjacji DCBX.
- Etap 2 Włączanie płaszczyzny obliczeniowej:Zainstalowanie adapterów na serwerach obliczeniowych obsługujących bazy danych lub ramy sztucznej inteligencji (TensorFlow, PyTorch z NCCL).
- Etap 3 Konsolidacja sieci:Migracja obciążeń roboczych TCP o wysokiej wrażliwości (analizy w czasie rzeczywistym, sidecary mikroserwisów) do RoCE z typami usług UC lub RC.
Lista weryfikacji topologii:
- Wszystkie przełączniki liści muszą obsługiwać bez strat RoCE (PFC + ECN) z odpowiednią przestrzenią buforową
- MTU od końca do końca co najmniej 2000 bajtów (najlepiej 9000 w przypadku ram jumbo)
- Unicast routing reachability for RoCEv2 traffic (port UDP 4791)
- ZweryfikowaneKompatybilny z MCX631102AN-ADATlista: NVIDIA Spectrum (preferowany), Cisco Nexus 9300-EX/FX, Arista 7050X/7050X3 z profilami DCBX
5. Operacje i konserwacja
Wykorzystanie wdrożeń produkcyjnych zależy od odpowiedniej telemetrii i proaktywnego zarządzania wyjątkami.
- Wykrycie korków:Monitorowanie liczników ram przerwy PFC na przełącznikach i adapterach z oznaczeniem ECN statystyk pakietów za pomocą etolu -S lub mlxlink.
- Zapewnienie SLO o opóźnieniu:Wdrożyć monitorowanie opóźnienia opartego na oznaczeniu czasu sprzętowego za pomocą narzędzi takich jak ucxtrace lub mlx5cmd; typowe zdrowe RTT poniżej 10 μs w rack, poniżej 30 μs w obrębie kręgosłupa.
- Wyrównanie oprogramowania stałego i sterownika:Użyj zatwierdzonego pakietu oprogramowania NVIDIA (patrzSpecyfikacje MCX631102AN-ADATdla dokładnych numerów części) i wersji kierowcy (mlx5_core ≥ 5,9).
- RMA i zarządzanie cyklem życia:Przy analizieCena MCX631102AN-ADATw porównaniu z TCO, obejmuje 3-5-letni cykl odświeżania węzłów; lista wielu globalnych dystrybutorówMCX631102AN-ADAT na sprzedażz wieloletnią gwarancją.
W celu rozwiązywania problemów najczęstszymi pułapkami są: niewłaściwie skonfigurowane progi buforu przełącznika (przyczyniające się do przerwania burz ram), niezgodny typ GID (preferowany typ GID 2 dla IPv6 RoCEv2),i brak możliwości obciążenia sprzętowego w czasownikach aplikacyjnych (zapewnić dostęp do lokalnego zapisu do ibv_reg_mr).
6Podsumowanie i ocena wartości
W sprawieNVIDIA Mellanox MCX631102AN-ADATdostarcza wytrzymały produktMCX631102AN-ADAT rozwiązanie karty adaptera Ethernetdla organizacji, które chcą odblokować prawdziwą niskozatrwałą wydajność linii na dojrzałej infrastrukturze 25GbE.rozwiązanie osiąga opóźnienie NVMe-oF poniżej 20 mikrosekund, odzyskuje > 30% rdzeni procesora dla obciążeń roboczych aplikacji i utrzymuje łączny przepustowość 50Gbps przy niewielkiej wydajności pakietów, osiągalnej wcześniej tylko na adapterach 100GbE.W przypadku architektów planujących hiperkonwergencyjne lub klastry magazynowania sztucznej inteligencji w środowisku zielonym,MCX631102AN-ADATstanowi strategiczny element umożliwiający dostarczanie profilu opóźnienia InfiniBand z prostotą operacyjną ethernetu.

