Robocikowo>ROBOCIKOWO
Infrastruktura

RoCE

2010AktywnyOpublikowano: 8 maja 2026Aktualizacja: 8 maja 2026Opublikowany
RoCE to protokół sieciowy umożliwiający Remote Direct Memory Access (RDMA) po sieci Ethernet, zapewniający niskie opóźnienia i wysoką przepustowość przy zerowym narzucie CPU.
Kluczowa innowacja
Umożliwia dostęp RDMA (zero-copy, bypass kernela CPU) bezpośrednio przez standardową sieć Ethernet, zamiast wymagać dedykowanej infrastruktury InfiniBand.
Kategoria
Infrastruktura
Poziom abstrakcji
Pattern
Poziom operacji
WdrożenieTreningSystem
Zastosowania
Klastry treningowe GPU dla LLMSieci scale-out NVIDIA Spectrum-X / NVLink-over-EthernetStorage rozproszony (NVMe-over-Fabrics)Klastry HPCBazy danych in-memory i caching

Jak działa

RoCE hermetyzuje wiadomości warstwy transportowej InfiniBand (Base Transport Header + payload) wewnątrz ramek Ethernet (RoCE v1) lub pakietów UDP/IP (RoCE v2). Karta sieciowa (HCA) realizuje cały stos protokołu sprzętowo: aplikacja inicjuje operację READ/WRITE/SEND, HCA czyta lub zapisuje pamięć zdalną bez kopiowania danych przez kernel ani CPU. Aby uniknąć utraty pakietów (RoCE jest wrażliwy na drop), używa się Priority Flow Control (PFC) i ECN do sygnalizacji przeciążeń (CNP frames w v2).

Rozwiązany problem

Tradycyjne sieci Ethernet z TCP/IP wprowadzają wysokie opóźnienia i obciążenie CPU przy komunikacji między węzłami w klastrach HPC i treningowych AI. RoCE eliminuje to dając RDMA (zero-copy, kernel bypass) bez potrzeby dedykowanej sieci InfiniBand.

Implementacja

Pułapki implementacyjne
Deadlocki PFCWysoka

Priority Flow Control wymagany dla losslessness może prowadzić do deadlocków pętli kredytowych w dużych topologiach.

Rozwiązanie:Stosować DCQCN, SRv6 z routowaniem ścieżek, lub adaptive routing; ograniczać domeny PFC.
Wrażliwość na drop pakietówKrytyczna

RoCE v2 nad UDP nie ma wbudowanej niezawodności; pojedynczy drop powoduje retransmisję typu go-back-N i dramatyczny spadek wydajności (incast collapse).

Rozwiązanie:Lossless ECN/PFC tuning, selective repeat (Reliable RoCE), Multipath Reliable Connection (MRC).
Złożoność konfiguracji DCBŚrednia

Konfiguracja Data Center Bridging (PFC, ETS, DCBX) na każdym przełączniku jest znacznie bardziej skomplikowana niż w sieci InfiniBand.

Ewolucja

2010
Publikacja RoCE v1 (IBTA Annex A16)
Punkt przełomowy

InfiniBand Trade Association ratyfikuje RoCE v1 jako Annex A16 do specyfikacji IBA 1.2.1.

2014
Publikacja RoCE v2 (IBTA Annex A17)
Punkt przełomowy

RoCE v2 dodaje hermetyzację UDP/IP (port 4791), umożliwiając routowanie pakietów RDMA w sieciach IP i kontrolę przeciążeń ECN/CNP.

2016
Wsparcie RoCE v2 w Linux Kernel 4.5

Mainline kernel zaczyna obsługiwać RoCE v2 (Mellanox OFED 2.3+), co umożliwia szerokie wdrożenia w data center.

2020
NVIDIA przejmuje Mellanox

Akwizycja czyni z RoCE strategiczny element platformy AI NVIDIA (Spectrum, ConnectX, BlueField).

2024
Spectrum-X i Ultra Ethernet Consortium
Punkt przełomowy

NVIDIA wprowadza Spectrum-X – platformę Ethernet zoptymalizowaną pod RoCE dla klastrów AI; powstaje Ultra Ethernet Consortium (AMD, Broadcom, Cisco, Meta, Microsoft) dążący do następcy RoCE.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

RoCE jest standardową siecią scale-out dla klastrów GPU (NVIDIA ConnectX/BlueField, Spectrum-X) używanych do treningu LLM.

Dobry fit

RoCE wymaga RDMA-capable NIC (HCA), ale działa z dowolnym CPU/GPU/akceleratorem nad nim.