Adapter serwerowy NVIDIA Mellanox MCX653105A-HDAT w akcji: transport i serwer RDMA/RoCE o niskim opóźnieniu

June 15, 2026

najnowsze wiadomości o firmie Adapter serwerowy NVIDIA Mellanox MCX653105A-HDAT w akcji: transport i serwer RDMA/RoCE o niskim opóźnieniu

W nowoczesnych centrach danych rozproszone przechowywanie, obliczenia o wysokiej wydajności (HPC) i klastry szkoleniowe AI stoją w obliczu wspólnego wąskiego gardła: sieci.Tradycyjne stosy TCP/IP wprowadzają znaczący opóźnienie i koszty CPUW tym badaniu przypadkowym analizowano, w jaki sposób średni dostawca chmury rozwiązał te właśnie wyzwania poprzez wdrożenieNVIDIA Mellanox MCX653105A-HDATadapter serwera umożliwiający transport o niskiej opóźnieniu oparty na RDMA/RoCE i znacząco zwiększający przepustowość serwera.

Temat i wyzwania: Kiedy każda mikrosekunda jest ważna

Istniejąca infrastruktura 25GbE dostawcy, obsługująca standardowy TCP/IP, miała trudności z obsługą ich nowego backendu pamięci masowej NVMe-over-Fabrics.Wykorzystanie procesora na węzłach pamięci masowej regularnie przekraczało 70% tylko z przetwarzania sieci, a opóźnienie między węzłami wahało się wokół 50 μs, co jest niedopuszczalne dla obciążeń bazy danych wrażliwych na opóźnienie.Przeciążenie sieci spowodowało wzrost czasu opóźnienia, który wpłynął na SLA aplikacjiPotrzebowali rozwiązania, które mogłoby zredukować koszty sieciowe, zapewnić opóźnienie poniżej mikrosekundy i utrzymać stałą wydajność pod obciążeniem.

Rozwiązanie i wdrożenie: Wprowadzenie karty sieciowej PCIe MCX653105A-HDAT ConnectX Adapter

Po przeanalizowaniu kilku opcji zespół wybrałKarta adaptera MCX653105A-HDAT EthernetW tym celu należy zwrócić uwagę na możliwość wykorzystania dwóch portów 100GbE oraz natywną obsługę RoCE (RDMA over Converged Ethernet).NVIDIA Mellanox MCX653105A-HDATzostał wdrożony w 120 węzłach pamięci masowej i obliczeniowych, z następującą konfiguracją:

  • RoCE włączonez ECN (Explicit Congestion Notification) i DCQCN do kontroli zatłoczenia
  • NVMe-oF wyładowanie docelowedo sprzętu, omijając procesor hosta do przechowywania I/O
  • Podziałdo przepływów priorytetowych bez strat dla ruchu magazynowego
  • Monitorowanie telemetriiprzy użyciu wbudowanych w adapter liczników wydajności

Zgodnie zArkusz danych MCX653105A-HDAT, karta obsługuje zarówno protokoły InfiniBand, jak i Ethernet, ale zespół wybrał RoCEv2 do bezproblemowej integracji z istniejącymi przełącznikami Ethernet.Wszystkie główne modele serwerów byłyKompatybilny z MCX653105A-HDATWdrożenie zostało zakończone w ciągu dwóch weekendów z zerowym czasem przestoju, przy użyciu funkcji migracji na żywo adaptera.

Wyniki i korzyści: mierzalne zyski z wyników

Następująca tabela zawiera podsumowanie kluczowych wskaźników przed i po wdrożeniu programuRozwiązanie karty adaptera MCX653105A-HDAT Ethernet:

Metryczny Przed (TCP/IP) Po (RoCE + MCX653105A-HDAT) Poprawa
Średnie opóźnienie (od węzła do węzła) 52 μs 10,8 μs 96Obniżka o 0,5%
Wykorzystanie procesora (węzeł pamięci masowej, stos sieciowy) 72% 8% 89% redukcji
Efektywna przepustowość na węzeł (NVMe-oF) 18 Gbps 96 Gbps 5.3x wzrost
Poziom opóźnienia (999,9 procent) 380 μs 12 μs 960,8% zmniejszenie

Oprócz tych liczb zespół zauważył dodatkowe korzyści operacyjne.Specyfikacje MCX653105A-HDATW tym celu wprowadzono systemy monitorowania połączeń oparte na sprzęcie i ASAP2 flow offload, które zmniejszyły ruch z wschodu na zachód i umożliwiły płynniejsze skalowanie.Cena MCX653105A-HDATW ciągu sześciu miesięcy uzasadniono to zmniejszeniem kosztów licencjonowania rdzenia procesora i większą gęstością pamięci masowej na węzeł.MCX653105A-HDAT na sprzedażW celu udostępnienia tej wydajności organizacjom każdej wielkości.

Podsumowanie i perspektywy: Fundacja infrastruktury nowej generacji

Sprawa ta dowodzi, żeKarta sieciowa PCIe MCX653105A-HDAT ConnectX adapterNie jest to tylko szybszy NIC, jest to platforma dla prawdziwych obliczeń opartych na danych.NVIDIA Mellanox MCX653105A-HDATTransformuje sposób komunikacji serwerów, eliminując nadwyżki związane ze starszymi protokołami i wykorzystując pełny potencjał pamięci NVMe i tkanin pamięci rozproszonej.

W przyszłości dostawca planuje rozszerzyć swoje rozmieszczenie o GPUDirect RDMA dla obciążeń szkoleniowych AI,oraz zbadać funkcje programowalności adaptera do przetwarzania pakietówDla architektów IT i inżynierów sieci, którzy stoją przed podobnymi wyzwaniami związanymi ze skalowaniem,Karta adaptera MCX653105A-HDAT Ethernetoferuje sprawdzoną, gotową na przyszłość drogę do sieci centrów danych o niskim opóźnieniu i dużej przepustowości.