NVIDIA Mellanox MCX556A-ECAT w akcji: RDMA/RoCE umożliwia przełomowe osiągnięcie bardzo niskich opóźnień i przepustowości serwerów

April 23, 2026

najnowsze wiadomości o firmie NVIDIA Mellanox MCX556A-ECAT w akcji: RDMA/RoCE umożliwia przełomowe osiągnięcie bardzo niskich opóźnień i przepustowości serwerów

W rozproszonych systemach przechowywania danych, w obliczeniach o wysokiej wydajności (HPC) oraz w klastrach do trenowania sztucznej inteligencji, opóźnienia sieciowe i narzut procesora od dawna ograniczały ogólną wydajność serwerów. Niedawne wdrożenie u dużego dostawcy usług chmurowych pokazuje, w jaki sposób NVIDIA Mellanox MCX556A-ECAT rozwiązuje te problemy dzięki technologiom RDMA i RoCE, zapewniając wymierne zyski zarówno w przepustowości, jak i w redukcji opóźnień.

Tło i wyzwania

Klient posiada klaster pamięci masowej Ceph o pojemności wielu petabajtów, obsługujący tysiące maszyn wirtualnych. Przed modernizacją ich infrastruktura 25GbE wykorzystująca standardowy protokół TCP/IP cierpiała z powodu wysokiego wykorzystania procesora (ponad 60% na węzłach pamięci masowej) i niespójnych opóźnień podczas szczytowego obciążenia. Okna kopii zapasowych często przekraczały osiem godzin, a zadania trenowania sztucznej inteligencji doświadczały przestojów I/O. Zespół potrzebował rozwiązania, które mogłoby zmniejszyć interwencję procesora, obniżyć opóźnienia i skalować się bez całkowitej przebudowy infrastruktury. Po przejrzeniu kartą katalogową MCX556A-ECAT i porównaniu specyfikacji MCX556A-ECAT, wybrali MCX556A-ECAT jako kluczowy element modernizacji.

Rozwiązanie i wdrożenie

Architektura skupiała się na karcie sieciowej Ethernet MCX556A-ECAT, dwuportowej karcie 100GbE obsługującej PCIe 3.0/4.0 x16. Wdrożona jako karta sieciowa PCIe ConnectX MCX556A-ECAT, umożliwiła RoCE v2 w istniejącej topologii leaf-spine przy minimalnych zmianach przełączników. Kluczowe kroki wdrożenia obejmowały:

  • Wymiana starszych kart 25GbE na MCX556A-ECAT na 40 węzłach pamięci masowej i 150 węzłach obliczeniowych.
  • Włączenie odciążania sprzętowego: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA i T10-DIF dla integralności danych.
  • Konfiguracja Priority Flow Control (PFC) i Enhanced Transmission Selection (ETS) dla bezstratnego transportu RoCE.
  • Weryfikacja statusu konfiguracji kompatybilnych z MCX556A-ECAT z istniejącymi przełącznikami Mellanox Spectrum i optyką QSFP28.

Całe wdrożenie zajęło dwa weekendy, bez przestojów, z wykorzystaniem migracji na żywo dla obciążeń obliczeniowych.

Wyniki i korzyści

Pomiary po wdrożeniu wykazały dramatyczne usprawnienia w kluczowych wskaźnikach. Poniższa tabela podsumowuje porównanie przed i po:

Metryka Przed (25GbE TCP/IP) Po (MCX556A-ECAT z RoCE) Poprawa
Wykorzystanie procesora na węźle pamięci masowej 62% 18% ↓ 71%
Średnie opóźnienie (odczyt losowy 4K) 450 µs 42 µs ↓ 90.7%
Agregowana przepustowość klastra 38 Gb/s 172 Gb/s ↑ 353%
Czas okna kopii zapasowej 8.5 godziny 1.8 godziny ↓ 79%

Poza liczbami, zespół inżynierów zgłosił, że RDMA znacznie zmniejszyło jitter, eliminując skoki "opóźnień końcowych", które wcześniej nękały punkty kontrolne trenowania sztucznej inteligencji. Jako dojrzałe rozwiązanie karty sieciowej Ethernet MCX556A-ECAT, karta ta również uprościła rozwiązywanie problemów dzięki wbudowanej telemetrii i powiadamianiu o przeciążeniu. Dla organizacji oceniających cenę MCX556A-ECAT w stosunku do wzrostu wydajności, klient osiągnął zwrot z inwestycji w ciągu dziewięciu miesięcy wyłącznie dzięki oszczędnościom rdzeni procesora i szybszemu ukończeniu zadań wsadowych. Karta jest teraz MCX556A-ECAT w sprzedaży poprzez wielu partnerów kanałowych, dzięki czemu ten poziom wydajności jest dostępny również dla średnich przedsiębiorstw.

Podsumowanie i perspektywy

Wdrożenie potwierdza, że MCX556A-ECAT spełnia swoje obietnice: opóźnienia RDMA poniżej mikrosekundy, drastyczne odciążenie procesora i liniowe skalowanie przepustowości. Niezależnie od tego, czy uruchamiasz rozproszone bazy danych, symulacje HPC, czy pamięć masową NVMe-oF, NVIDIA Mellanox MCX556A-ECAT oferuje przyszłościową podstawę. Ponieważ 100GbE staje się nowym standardem dla kręgosłupów centrów danych, rozwiązania zbudowane wokół tej karty będą nadal przewyższać starsze stosy TCP/IP. Aby uzyskać szczegółowe planowanie, zapoznaj się z oficjalną kartą katalogową MCX556A-ECAT lub skonsultuj się z architektami rozwiązań w celu walidacji konfiguracji kompatybilnych z MCX556A-ECAT dla Twojego konkretnego środowiska.