DualPath od DeepSeek: Nowa architektura podwaja wydajność agentów AI

Publikacji badawcza naukowców z DeepSeek: DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

Badacze z DeepSeek-AI, Uniwersytetu Pekińskiego i Uniwersytetu Tsinghua zaprezentowali DualPath – przełomową architekturę eliminującą wąskie gardło przepustowości I/O w modelach językowych. Nowe rozwiązanie niemal dwukrotnie zwiększa przepustowość systemów podczas obsługi wieloetapowych interakcji agentowych, optymalizując wykorzystanie sieci i sprzętu bez konieczności inwestowania w dodatkową infrastrukturę.

Najważniejsze w skrócie

Problem strukturalny: W tradycyjnych architekturach serwowania agentów AI karty sieciowe pamięci masowej (NIC) na węzłach typu prefill są permanentnie przeciążone, podczas gdy węzły decode pozostają nieaktywne.
Innowacja DualPath: Wprowadzenie dwuścieżkowego ładowania KV Cache. Dane są pobierane przez wolne węzły dekodujące i przesyłane do węzłów prefill superszybką siecią obliczeniową (RDMA).
Skok wydajności: System osiąga przyspieszenie do 1,87x w przetwarzaniu wsadowym (offline) oraz obsługuje średnio 1,96x więcej zapytań na sekundę (online) przy zachowaniu rygorystycznych opóźnień (SLO).
Izolacja ruchu: Zastosowanie priorytetyzacji na poziomie wirtualnych ścieżek (Virtual Lanes) gwarantuje, że transfer danych nie zakłóca krytycznej komunikacji wewnątrz klastra GPU.

Ewolucja w stronę sztucznej inteligencji agentowej

Zastosowanie współczesnych systemów GenAI drastycznie ewoluuje. Modele językowe nie służą już wyłącznie jako proste chatboty odpowiadające na pojedyncze pytania. Przechodzimy w erę systemów agentowych, w których sztuczna inteligencja autonomicznie planuje, wywołuje zewnętrzne narzędzia (np. przeglądarki, interpretery Pythona) i rozwiązuje złożone problemy w setkach iteracji.

W takich scenariuszach LLM uczestniczy w długotrwałych sesjach, a kontekst rośnie z każdą turą, nierzadko osiągając pułap miliona tokenów. Ponieważ ponad 95% kontekstu w kolejnych interakcjach to dane już przetworzone, systemy te są w ogromnym stopniu uzależnione od ponownego wykorzystania wyliczonych wcześniej stanów uwagi (KV Cache). To sprawia, że współczesne wdrażanie agentów staje się problemem natury operacji wejścia/wyjścia (I/O), a nie czystej mocy obliczeniowej. Giganci branżowi, tacy jak DeepMind, Anthropic, Microsoft czy Meta, nieustannie poszukują metod na optymalizację tego zjawiska.

Zrozumieć barierę I/O: Kiedy GPU czeka na dane

Aby zrozumieć skalę problemu, wystarczy spojrzeć na trendy sprzętowe. Od czasów architektury NVIDIA Ampere do nadchodzącej Blackwell surowa moc obliczeniowa (FLOPS) wzrosła prawie 29-krotnie. W tym samym czasie przepustowość interfejsu PCIe powiększyła się zaledwie dwukrotnie, a pojemność pamięci HBM wzrosła 2,4 raza. Stosunek możliwości wejścia/wyjścia do mocy obliczeniowej spadł drastycznie – aż 14,4 raza.

Nawet najpotężniejsze akceleratory, takie jak NVIDIA H100, spędzają w scenariuszach agentowych większość czasu na bezczynnym oczekiwaniu na dostarczenie gigabajtów danych KV Cache z zewnętrznych dysków. Przykładowo, dla zaawansowanego modelu DeepSeek-V3.2 (660 miliardów parametrów), stosunek liczby pobieranych danych do liczby wymaganych obliczeń w fazie dodawania nowych tokenów wynosi około 22 GB/PFLOP. To natychmiastowo zatyka standardowe, jednokierunkowe sieci pamięci masowej (SNIC).

Asymetria architektury Prefill-Decode

Współczesne klastry optymalizują pracę poprzez tzw. Dezagregację Prefill-Decode (P-D). Proces dzieli się na silniki prefill (zajmujące się przetwarzaniem początkowego promptu, operacja intensywna obliczeniowo) oraz silniki decode (zajmujące się generowaniem kolejnych tokenów, operacja wrażliwa na opóźnienia).

Podejście klasyczne vs DualPath:

Klasyczne systemy (np. bazujące na Mooncake): Cały ciężar pobierania ogromnych plików KV Cache z dysków SSD spoczywa na kartach sieciowych (SNIC) podpiętych do węzłów prefill. W efekcie te karty działają na 100% swoich możliwości, dławiąc cały proces, podczas gdy identyczne karty sieciowe na węzłach decode mają zerowe obciążenie (odpowiadają tylko za drobne zapisy).
DualPath: Transformuje to jednopunktowe wąskie gardło w globalną, współdzieloną pulę przepustowości. System ładuje dane z pamięci trwałej dwiema ścieżkami: tradycyjnie do maszyn prefill, ale także bezpośrednio do maszyn decode. Następnie węzły dekodujące przesyłają te porcje danych do jednostek prefill za pomocą nieobciążonej, superszybkiej sieci obliczeniowej (CNIC, wewnątrzklastrowe RDMA).

Chociaż chińscy giganci technologiczni tacy jak Tencent czy Alibaba eksperymentowali już z rozproszonymi pulami pamięci DRAM, DualPath atakuje problem u samego źródła, rozwiązując inherentną asymetrię sieciową na poziomie kontrolerów sprzętowych.

Zarządzanie ruchem i izolacja sieciowa (CNIC-Centric Traffic Manager)

Przesyłanie terabajtów cache'u przez sieć obliczeniową GPU mogłoby wydawać się ryzykownym ruchem. Sieć ta jest zazwyczaj zarezerwowana dla ekstremalnie wrażliwych na opóźnienia operacji zbiorczych modelu (kolektywów takich jak AllToAll w modelach Mixture-of-Experts czy AllGather). Zakłócenie tych operacji ułamkiem milisekundy prowadzi do dramatycznych spadków wydajności całego klastra.

DualPath stosuje autorską metodę zarządzania ruchem opartą na architekturze wirtualnych ścieżek (Virtual Lanes - VL) w standardzie InfiniBand. Krytyczny ruch związany z samym wnioskowaniem modelu zostaje przypisany do dedykowanego pasa o wysokim priorytecie (otrzymując gwarancję 99% przepustowości). Transfer pamięci podręcznej KV Cache realizowany jest pasem o niskim priorytecie.

Co więcej, system rezygnuje z bezpośredniego kopiowania z dysku do pamięci GPU (GPUDirect Storage) na rzecz kopiowania wspieranego przez karty CNIC. To wymusza przejście całego ruchu wejścia/wyjścia przez rygorystyczne mechanizmy Quality of Service (QoS) sieci obliczeniowej, całkowicie izolując ciężkie transfery dyskowe od operacji na rdzeniach tensorowych.

Inteligentny harmonogram zadań (Adaptive Request Scheduler)

Zastosowanie dwóch równoległych ścieżek danych wymusiło stworzenie zupełnie nowego harmonogramu zadań. Naiwne przypisywanie zapytań doprowadziłoby szybko do odtworzenia wąskiego gardła w innym miejscu. Centralny moduł dystrybucji zadań w DualPath analizuje sytuację dwupoziomowo:

Na poziomie węzłów (Inter-Engine): Grupuje maszyny i monitoruje ich stan w czasie rzeczywistym. Analizuje nie tylko utylizację samych układów graficznych, ale również długość kolejek odczytu z dysków sieciowych. Zapytania trafiają do maszyn prefill i decode tak, by równoważyć liczbę przetwarzanych tokenów (które są doskonałym estymatorem obciążenia sprzętu).
Na poziomie mikrozadań (Intra-Engine): Optymalizuje układanie tzw. paczek (forward batches). Aby uniknąć "pustych przebiegów" (bubbles) na kartach GPU, które czekają na zakończenie pracy innych jednostek w trybie Data Parallelism, system dynamicznie przycina długość wejściowych paczek (chunked prefill).

Wyniki eksperymentów: Skokowy wzrost wydajności

Inżynierowie przetestowali DualPath na wewnętrznej platformie w środowisku potężnych klastrów złożonych z węzłów wyposażonych w 8 akceleratorów Hopper połączonych przez NVLink, wraz z systemem plików 3FS zdolnym nasycić interfejsy 400 Gbps. Do badań wykorzystano otwarte wagi potężnego modelu DeepSeek-V3.2 (660B parametrów), jego mniejszej wersji 27B, a także modelu Qwen2.5-32B.

Wyniki są jednoznaczne. W środowiskach przetwarzania offline (typowych, np. dla generowania danych w fazie Rollout podczas uczenia metodą Reinforcement Learning) DualPath przyspiesza realizację całego pakietu zadań (JCT) nawet 1,87 raza w porównaniu z wysoce zoptymalizowaną architekturą bazową. System wykazuje skuteczność zbliżoną do teoretycznego modelu Oracle, w którym założono absolutne zero opóźnień I/O. Oznacza to, że DualPath w praktyce całkowicie zniwelował barierę dyskową.

W serwowaniu online (obsługa dynamicznie pojawiających się użytkowników/agentów) nowa technologia pozwala na utrzymanie stałego opóźnienia do pierwszego wygenerowanego słowa (TTFT) przy blisko dwukrotnie większym natężeniu ruchu (1,96x wyższe APS – arrivals per second). Jednocześnie czas wygenerowania każdego kolejnego tokena (TPOT) pozostaje nienaruszony, co udowadnia, że węzły dekodujące nie są przeciążane pobocznym przesyłaniem transferów na rzecz węzłów prefill.

Dlaczego to ważne?

Zjawisko przejścia od asystentów typu Q&A do autonomicznych agentów AI całkowicie przemodelowało ekonomikę użycia wielkich modeli językowych. O ile pojedyncze zapytanie wymaga przeliczenia ułamka gigabajta pamięci, o tyle agent działający przez kilkadziesiąt rund i budujący kontekst na poziomie 30-100 tysięcy tokenów zmusza serwery do ciągłego ładowania, zrzucania i ponownego odczytu terabajtów danych ze struktur KV Cache. Koszty operacyjne takich rozwiązań stawały się zaporowe ze względu na fatalną utylizację potężnych i drogich farm układów graficznych. Klastry warte dziesiątek milionów dolarów dosłownie czekały na dane z dysku.

Podejście zaproponowane w DualPath jest fundamentalnie istotne, ponieważ rozwiązuje problem architektoniczny za pomocą oprogramowania i nowej inżynierii sieciowej, a nie poprzez fizyczną zmianę hardwareu. Pokazuje, że współczesne układy dysponują w obszarze sieci obliczeniowej niewykorzystanym, ukrytym potencjałem (tzw. zjawisko intermittent pattern komunikacji modeli), który w odpowiednich warunkach i przy dobrej kontroli Quality of Service (QoS) może zostać "wypożyczony" na poczet operacji pamięci masowej. Dzięki takim innowacjom komercyjne udostępnienie zaawansowanych środowisk agentowych staje się w ogóle opłacalne rynkowo.

Co dalej?

Implementacja w otwartoźródłowych bibliotekach: Należy spodziewać się szybkiej adaptacji mechanizmów dual-path w najpopularniejszych frameworkach serwujących (np. SGLang, vLLM). Architektury, które wciąż bazują wyłącznie na dystrybuowanych warstwach pamięci DRAM (jak rozwiązania oparte na oryginalnym Mooncake), będą musiały przejść transformację w celu uwzględnienia nieużywanych portów sieciowych na warstwach decode.
Optymalizacja współczynników Prefill/Decode w locie: Chociaż obecne testy opierały się na statycznie przypisanych konfiguracjach maszyn (np. 2 prefill na 4 decode), przyszłe iteracje oprogramowania skupią się na dynamicznym, w locie konfigurowanym przydziale proporcji serwerów do określonego typu zadań na podstawie chwilowego obciążenia.
Skalowalność i obsługa "ogona" dystrybucji: Wyniki w olbrzymiej skali klastrowej (do 1152 jednostek GPU) potwierdzają stabilność rozwiązania, ale ujawniają konieczność dalszych badań nad ukróceniem incydentalnych szczytów w czasie do pierwszego tokena (TTFT) w wysoce nieregularnym i nieprzewidywalnym środowisku sieci Web.

Źródła: Y. Wu et al., "DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference" (ArXiv:2602.21548v2), techtarget.com, nvidia.com, techtarget.com, api-docs.deepseek.com, perplexity.ai, mooncake-ai.com/, bm.com, intel.com, ollama.com, oracle.com, deepchecks.com