Infrastruktura

MRC

2026AktywnyOpublikowano: 8 maja 2026Aktualizacja: 8 maja 2026Opublikowany

Protokół sieciowy współopracowany przez OpenAI, AMD, Broadcom, Intel, Microsoft i NVIDIA, rozszerzający RoCE o multipath i SRv6 do skalowania sieci superkomputerowych dla treningu AI ponad 100 000 GPU.

Kluczowa innowacja

Rozprasza pojedynczy transfer RDMA na setki ścieżek przez wiele równoległych planów sieci, używając statycznego routingu źródłowego SRv6 zamiast dynamicznych protokołów routingu, co eliminuje przeciążenia i pozwala omijać awarie w skali mikrosekund.

Kategoria

Infrastruktura

Poziom abstrakcji

Pattern

Poziom operacji

WdrożenieTrening

Zastosowania

Synchroniczny pretraining modeli frontier na klastrach >100 000 GPUTrening rozproszony na superkomputerach Stargate (OCI Abilene)Sieci RDMA dla NVIDIA GB200Wielkoskalowe sieci Ethernet w centrach danych AI

Jak działa

MRC dzieli każde 800 Gb/s NIC na osiem niezależnych łączy 100 Gb/s podłączanych do różnych przełączników, tworząc równoległe plany sieci. Dla pojedynczego transferu RDMA pakiety są rozpraszane przez setki ścieżek we wszystkich planach. Każdy pakiet zawiera adres docelowej pamięci, więc pakiety mogą docierać poza kolejnością i są zapisywane bezpośrednio. MRC utrzymuje stan dla wielu ścieżek i przy wykryciu przeciążenia zamienia ścieżkę; przy utracie pakietu od razu wyłącza ścieżkę i sprawdza ją probami. Przy przeciążeniu odbiorcy stosuje packet trimming — przełącznik usuwa payload i przesyła sam nagłówek, wyzwalając retransmisję. Routing odbywa się przez IPv6 Segment Routing (SRv6): nadawca koduje sekwencję identyfikatorów przełączników w adresie docelowym, a każdy przełącznik usuwa swój identyfikator i statyczną tabelą decyduje o dalszym kierunku. Dynamiczny routing (BGP) jest wyłączony.

Rozwiązany problem

W klastrach do treningu AI o skali setek tysięcy GPU pojedynczy spóźniony transfer może zatrzymać cały krok treningu synchronicznego, a awarie linków lub przełączników w klasycznych sieciach RoCE z pojedynczą ścieżką powodują wielosekundowe przestoje lub crash zadania. Tradycyjne protokoły wymagają, aby pakiety transferu szły jedną trasą, co prowadzi do hot-spotów i niewykorzystania dostępnej różnorodności ścieżek.