Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Praktyka aplikacji InfiniBand Switch

January 6, 2026

najnowsze wiadomości o firmie Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Praktyka aplikacji InfiniBand Switch

Temat i wyzwania: wąski gardło sieci w nowoczesnym informatyce

W wyścigu na naukowe odkrycia i przełomy w sztucznej inteligencji, możliwości obliczeniowe wiodącej instytucji badawczej były tłumione nie przez brak surowej mocy przetwarzania,ale przez ich tkankę sieciowąIch istniejąca infrastruktura HDR InfiniBand, choć zdolna, starała się nadążyć za ogromną,W celu zapewnienia zgodności z wymaganiami w zakresie synchronizowanej komunikacji nowo wdrożonych klastrów NVIDIA DGX i tradycyjnych obciążeń pracy HPCNaukowcy mieli znaczne opóźnienia w realizacji pracy, a głównym przeszkodą stały się opóźnienie sieci i przeciążenia podczas komunikacji "wszystko do wszystkich".

Wyzwanie było podwójne: po pierwsze, drastyczne zmniejszenie opóźnienia dla operacji zdalnego bezpośredniego dostępu do pamięci (RDMA), które są kluczowe dla symulacji HPC opartych na MPI.tkanina niezablokowująca do prac szkoleniowych AI, które wymagały stałej synchronizacji parametrów na setkach procesorów graficznychInstytucja potrzebowała przyszłościowego rozwiązania, które mogłoby obsługiwać prędkości NDR 400Gb/s przy jednoczesnymzgodnew odniesieniu do ich istniejącego ekosystemu, zapewniając opłacalną modernizację bez całkowitego remontu.

Rozwiązanie i wdrożenie: Wdrożenie tkaniny 920-9B210-00FN-0D0

Po dokładnej ocenie instytucja wybrałaNVIDIA Mellanox 920-9B210-00FN-0D0Rozwiązanie opierało się na wdrażaniu wielu920-9B210-00FN-0D0 MQM9790-NS2Fprzełączniki tworzą warstwę kręgosłupa o dużej przepustowości i niskim opóźnieniu, łącząc wszystkie węzły obliczeniowe i pamięci masowej.

Wdrożenie zostało skonstruowane jako hybrydowa topologia dwustopniowego drzewa tłuszczowego w celu maksymalizacji szerokości pasma i zminimalizowania liczby hopów.

  • Rdzeń tkaniny:Warstwa kręgosłupa zbudowana całkowicie z920-9B210-00FN-0D0przełączniki, zapewniające kręgosłup NDR 400Gb/s.
  • Bezproblemowa integracja:Wykorzystując wsteczną kompatybilność przełącznika, połączono istniejące przełączniki HDR leaf i NIC, chroniąc wcześniejsze inwestycje, umożliwiając jednocześnie stopniowe ulepszania węzłów do NDR.
  • Zaawansowane zarządzanie:Cała tkanina, włączając nowe920-9B210-00FN-0D0 InfiniBand Switch OPNW celu zapewnienia precyzyjnej telemetrii wydajności, automatycznego dostarczania tkanin i szybkiej izolacji usterek.
  • Weryfikacja:Zespół informatyczny skonsultował się z urzędnikiem.Artykuł 920-9B210-00FN-0D0a takżespecyfikacjew celu zweryfikowania zasięgu kabli, zasilania i chłodzenia w ich centrum danych, zapewniając optymalną wydajność.

Architektura ta stworzyła zjednoczony920-9B210-00FN-0D0 Rozwiązanie InfiniBand Switch OPN, obsługując zarówno klasyczne obciążenia HPC, jak i pojawiające się obciążenia sztucznej inteligencji w jednej, potężnej sieci.

Wpływ i korzyści: ilościowe zyski w zakresie wydajności i wydajności

Wpływ wdrażania920-9B210-00FN-0D0Zmiany te były natychmiast mierzalne i przekształcające w różnych wymiarach ich działalności.

Metryczny Przed przeniesieniem Po 920-9B210-00FN-0D0 Rozmieszczenie
Średnia opóźnienie MPI (podróż w obie strony) ~0,7 mikrosekundy ~0,5 mikrosekundy
Czas zakończenia pracy w zakresie szkolenia AI (model duży) 5.2 dni 3.8 dni(27% zmniejszenie)
Wykorzystanie tkanin w okresie szczytu Często przekracza 85%, powodując korki Stabilny poniżej 60% przy prędkościach NDR
Zadania administracyjne (rekonfiguracja fabryki) Procesy ręczne wymagające dużo czasu Zautomatyzowane za pomocą integracji UFM®

Najważniejszą korzyścią było znaczne skrócenie czasu działania aplikacji.obserwowano poprawę o 20-30% ze względu na niższą i bardziej konsekwentną opóźnienie MPIDla zespołów AI niemal teoretyczna wydajność RDMA nad nową tkaniną oznaczała, że zasoby GPU były w pełni nasycone obliczeniami, a nie zatrzymane w oczekiwaniu na transfery sieci.Podczas oceny całkowitej920-9B210-00FN-0D0 cenaW związku z tym, w wyniku podwyższonego poziomu inwestycji w sektorze badań naukowych, które były częścią zamówień publicznych, wzrost wyników badań przyniósł przekonujący zwrot z inwestycji, znacznie przewyższający początkowe wydatki inwestycyjne.

Wniosek i perspektywy: plan infrastruktury odpornej na przyszłość

Powodzenie w zastosowaniuNVIDIA Mellanox 920-9B210-00FN-0D0w tym środowisku badawczym służy jako potężny plan dla każdej organizacji stojącej przed podobnymi wyzwaniami w zakresie połączeń.Wykazuje, że inwestowanie w najnowocześniejszą strukturę sieci nie jest kosztem dodatkowym, ale strategicznym mnożnikiem inwestycji obliczeniowych.

Wdrożenie instytucji dowodzi, że920-9B210-00FN-0D0Jest to platforma umożliwiająca konwergencję. Łączy bezproblemowo obciążenia pracy HPC i sztucznej inteligencji oparte na RDMA w jednej, ultraodpowiedzialnej sieci,uproszczenie operacji i przyspieszenie wykrywaniaW miarę jak ta technologia staje się coraz bardziej dostępnana sprzedaż, wyznacza nowe standardy tego, co jest możliwe w klastrach o wysokiej wydajności.

Patrząc w przyszłość, nieodłączną skalowalność i wydajność tkaniny NDR 400Gb / s oznaczają, że instytucja jest dobrze przygotowana do integracji jeszcze potężniejszych zasobów obliczeniowych w przyszłości.W sprawie920-9B210-00FN-0D0Efektywnie wyeliminowała sieć jako wąski gardło, pozwalając badaczom skupić się wyłącznie na ograniczeniach swoich algorytmów i wyobraźni.