NVIDIA Mellanox MCX556A-ECAT w akcji: RDMA/RoCE umożliwia przełomowe osiągnięcie bardzo niskich opóźnień i przepustowości serwerów
April 23, 2026
W rozproszonych systemach przechowywania danych, w obliczeniach o wysokiej wydajności (HPC) oraz w klastrach do trenowania sztucznej inteligencji, opóźnienia sieciowe i narzut procesora od dawna ograniczały ogólną wydajność serwerów. Niedawne wdrożenie u dużego dostawcy usług chmurowych pokazuje, w jaki sposób NVIDIA Mellanox MCX556A-ECAT rozwiązuje te problemy dzięki technologiom RDMA i RoCE, zapewniając wymierne zyski zarówno w przepustowości, jak i w redukcji opóźnień.
Klient posiada klaster pamięci masowej Ceph o pojemności wielu petabajtów, obsługujący tysiące maszyn wirtualnych. Przed modernizacją ich infrastruktura 25GbE wykorzystująca standardowy protokół TCP/IP cierpiała z powodu wysokiego wykorzystania procesora (ponad 60% na węzłach pamięci masowej) i niespójnych opóźnień podczas szczytowego obciążenia. Okna kopii zapasowych często przekraczały osiem godzin, a zadania trenowania sztucznej inteligencji doświadczały przestojów I/O. Zespół potrzebował rozwiązania, które mogłoby zmniejszyć interwencję procesora, obniżyć opóźnienia i skalować się bez całkowitej przebudowy infrastruktury. Po przejrzeniu kartą katalogową MCX556A-ECAT i porównaniu specyfikacji MCX556A-ECAT, wybrali MCX556A-ECAT jako kluczowy element modernizacji.
Architektura skupiała się na karcie sieciowej Ethernet MCX556A-ECAT, dwuportowej karcie 100GbE obsługującej PCIe 3.0/4.0 x16. Wdrożona jako karta sieciowa PCIe ConnectX MCX556A-ECAT, umożliwiła RoCE v2 w istniejącej topologii leaf-spine przy minimalnych zmianach przełączników. Kluczowe kroki wdrożenia obejmowały:
- Wymiana starszych kart 25GbE na MCX556A-ECAT na 40 węzłach pamięci masowej i 150 węzłach obliczeniowych.
- Włączenie odciążania sprzętowego: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA i T10-DIF dla integralności danych.
- Konfiguracja Priority Flow Control (PFC) i Enhanced Transmission Selection (ETS) dla bezstratnego transportu RoCE.
- Weryfikacja statusu konfiguracji kompatybilnych z MCX556A-ECAT z istniejącymi przełącznikami Mellanox Spectrum i optyką QSFP28.
Całe wdrożenie zajęło dwa weekendy, bez przestojów, z wykorzystaniem migracji na żywo dla obciążeń obliczeniowych.
Pomiary po wdrożeniu wykazały dramatyczne usprawnienia w kluczowych wskaźnikach. Poniższa tabela podsumowuje porównanie przed i po:
| Metryka | Przed (25GbE TCP/IP) | Po (MCX556A-ECAT z RoCE) | Poprawa |
|---|---|---|---|
| Wykorzystanie procesora na węźle pamięci masowej | 62% | 18% | ↓ 71% |
| Średnie opóźnienie (odczyt losowy 4K) | 450 µs | 42 µs | ↓ 90.7% |
| Agregowana przepustowość klastra | 38 Gb/s | 172 Gb/s | ↑ 353% |
| Czas okna kopii zapasowej | 8.5 godziny | 1.8 godziny | ↓ 79% |
Poza liczbami, zespół inżynierów zgłosił, że RDMA znacznie zmniejszyło jitter, eliminując skoki "opóźnień końcowych", które wcześniej nękały punkty kontrolne trenowania sztucznej inteligencji. Jako dojrzałe rozwiązanie karty sieciowej Ethernet MCX556A-ECAT, karta ta również uprościła rozwiązywanie problemów dzięki wbudowanej telemetrii i powiadamianiu o przeciążeniu. Dla organizacji oceniających cenę MCX556A-ECAT w stosunku do wzrostu wydajności, klient osiągnął zwrot z inwestycji w ciągu dziewięciu miesięcy wyłącznie dzięki oszczędnościom rdzeni procesora i szybszemu ukończeniu zadań wsadowych. Karta jest teraz MCX556A-ECAT w sprzedaży poprzez wielu partnerów kanałowych, dzięki czemu ten poziom wydajności jest dostępny również dla średnich przedsiębiorstw.
Wdrożenie potwierdza, że MCX556A-ECAT spełnia swoje obietnice: opóźnienia RDMA poniżej mikrosekundy, drastyczne odciążenie procesora i liniowe skalowanie przepustowości. Niezależnie od tego, czy uruchamiasz rozproszone bazy danych, symulacje HPC, czy pamięć masową NVMe-oF, NVIDIA Mellanox MCX556A-ECAT oferuje przyszłościową podstawę. Ponieważ 100GbE staje się nowym standardem dla kręgosłupów centrów danych, rozwiązania zbudowane wokół tej karty będą nadal przewyższać starsze stosy TCP/IP. Aby uzyskać szczegółowe planowanie, zapoznaj się z oficjalną kartą katalogową MCX556A-ECAT lub skonsultuj się z architektami rozwiązań w celu walidacji konfiguracji kompatybilnych z MCX556A-ECAT dla Twojego konkretnego środowiska.

