Infrastruktura

RoCE

2010AktywnyOpublikowano: 8 maja 2026Aktualizacja: 8 maja 2026Opublikowany

RoCE to protokół sieciowy umożliwiający Remote Direct Memory Access (RDMA) po sieci Ethernet, zapewniający niskie opóźnienia i wysoką przepustowość przy zerowym narzucie CPU.

Kluczowa innowacja

Umożliwia dostęp RDMA (zero-copy, bypass kernela CPU) bezpośrednio przez standardową sieć Ethernet, zamiast wymagać dedykowanej infrastruktury InfiniBand.

Kategoria

Infrastruktura

Poziom abstrakcji

Pattern

Poziom operacji

WdrożenieTreningSystem

Zastosowania

Klastry treningowe GPU dla LLMSieci scale-out NVIDIA Spectrum-X / NVLink-over-EthernetStorage rozproszony (NVMe-over-Fabrics)Klastry HPCBazy danych in-memory i caching

Jak działa

RoCE hermetyzuje wiadomości warstwy transportowej InfiniBand (Base Transport Header + payload) wewnątrz ramek Ethernet (RoCE v1) lub pakietów UDP/IP (RoCE v2). Karta sieciowa (HCA) realizuje cały stos protokołu sprzętowo: aplikacja inicjuje operację READ/WRITE/SEND, HCA czyta lub zapisuje pamięć zdalną bez kopiowania danych przez kernel ani CPU. Aby uniknąć utraty pakietów (RoCE jest wrażliwy na drop), używa się Priority Flow Control (PFC) i ECN do sygnalizacji przeciążeń (CNP frames w v2).

Rozwiązany problem

Tradycyjne sieci Ethernet z TCP/IP wprowadzają wysokie opóźnienia i obciążenie CPU przy komunikacji między węzłami w klastrach HPC i treningowych AI. RoCE eliminuje to dając RDMA (zero-copy, kernel bypass) bez potrzeby dedykowanej sieci InfiniBand.

Implementacja

Implementacje referencyjne

Linux RDMA Subsystem (rdma-core)

C · Linux RDMA community

Oficjalna

NVIDIA MLNX_OFED

C · NVIDIA (Mellanox)

Oficjalna

Soft-RoCE (rxe)

Oficjalna

Pułapki implementacyjne

Deadlocki PFCWysoka

Priority Flow Control wymagany dla losslessness może prowadzić do deadlocków pętli kredytowych w dużych topologiach.

Rozwiązanie:Stosować DCQCN, SRv6 z routowaniem ścieżek, lub adaptive routing; ograniczać domeny PFC.

Wrażliwość na drop pakietówKrytyczna

RoCE v2 nad UDP nie ma wbudowanej niezawodności; pojedynczy drop powoduje retransmisję typu go-back-N i dramatyczny spadek wydajności (incast collapse).

Rozwiązanie:Lossless ECN/PFC tuning, selective repeat (Reliable RoCE), Multipath Reliable Connection (MRC).

Złożoność konfiguracji DCBŚrednia

Konfiguracja Data Center Bridging (PFC, ETS, DCBX) na każdym przełączniku jest znacznie bardziej skomplikowana niż w sieci InfiniBand.

Ewolucja

2010

Publikacja RoCE v1 (IBTA Annex A16)

Punkt przełomowy

InfiniBand Trade Association ratyfikuje RoCE v1 jako Annex A16 do specyfikacji IBA 1.2.1.

2014

Publikacja RoCE v2 (IBTA Annex A17)

Punkt przełomowy

RoCE v2 dodaje hermetyzację UDP/IP (port 4791), umożliwiając routowanie pakietów RDMA w sieciach IP i kontrolę przeciążeń ECN/CNP.

2016

Wsparcie RoCE v2 w Linux Kernel 4.5

Mainline kernel zaczyna obsługiwać RoCE v2 (Mellanox OFED 2.3+), co umożliwia szerokie wdrożenia w data center.

2020

NVIDIA przejmuje Mellanox

Akwizycja czyni z RoCE strategiczny element platformy AI NVIDIA (Spectrum, ConnectX, BlueField).

2024

Spectrum-X i Ultra Ethernet Consortium

Punkt przełomowy

NVIDIA wprowadza Spectrum-X – platformę Ethernet zoptymalizowaną pod RoCE dla klastrów AI; powstaje Ultra Ethernet Consortium (AMD, Broadcom, Cisco, Meta, Microsoft) dążący do następcy RoCE.