Architektura

RecursiveMAS

2026BadawczyOpublikowany

RecursiveMAS to framework systemu wieloagentowego, w którym agenci wymieniają między sobą ukryte stany sieci zamiast tekstu, a cały łańcuch działa jak rekurencyjna pętla warstw nad zamrożonymi modelami bazowymi.

Kluczowa innowacja

Agenci w systemie wieloagentowym komunikują się ukrytymi reprezentacjami (last-layer hidden states) zamiast wygenerowanymi tokenami tekstu, eliminując narzut dekodowania i kodowania między modelami.

Kategoria

Architektura

Poziom abstrakcji

Pattern

Poziom operacji

SystemInferencjaTreningŚrodowisko agentoweOrkiestracja

Zastosowania

Wieloagentowe pipeline'y rozumowania matematycznegoSystemy wieloagentowe do generowania koduMulti-agent QA z wyszukiwaniem i weryfikacjąAgenci medyczni z wieloetapową diagnostykąHeterogeniczne zespoły LLM (różne modele bazowe w jednym systemie)Redukcja kosztów tokenów w wieloagentowych wdrożeniach produkcyjnych

Jak działa

Architektura składa się z dwóch wariantów modułu RecursiveLink — lekkiej dwuwarstwowej sieci. Inner RecursiveLink działa wewnątrz pojedynczego agenta: zamiast dekodować tekst podczas pośredniego rozumowania, mapuje generowane embeddingi z ostatniej warstwy z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę „ukrytych myśli”. Outer RecursiveLink łączy różne agenty: dopasowuje embeddingi między modelami o różnych wymiarach przestrzeni reprezentacji (np. Qwen ↔ Llama-3 ↔ Gemma3 ↔ Mistral). Wagi modeli bazowych są zamrożone — gradient trenuje wyłącznie parametry RecursiveLink, co stanowi około 0,31% łącznych parametrów. Jeśli dwóch agentów korzysta z tego samego modelu bazowego w różnych rolach, do pamięci GPU ładowana jest jedna kopia modelu i dwa zestawy parametrów RecursiveLink.

Rozwiązany problem

Standardowe systemy wieloagentowe (MAS) tracą wydajność na komunikacji przez tekst: każdy agent musi dekodować rozumowanie do tokenów, a następny agent koduje je z powrotem do embeddingów. To podwójne tłumaczenie zwiększa latencję, zużycie tokenów i utrudnia trening end-to-end przez gradienty.

Kluczowe mechanizmy

Komunikacja przez ostatnie ukryte stany (last-layer hidden states) zamiast wygenerowanych tokenów tekstu

Rekurencyjna pętla agentów — wyjście ostatniego agenta wraca do pierwszego, otwierając kolejną rundę rozumowania

Inner RecursiveLink — wewnątrzagentowa pętla mapująca embeddingi z powrotem do przestrzeni wejściowej modelu

Outer RecursiveLink — międzyagentowy most dopasowujący embeddingi między modelami o różnych wymiarach

Zamrożenie wag modeli bazowych i trening wyłącznie lekkich modułów RecursiveLink (~0,31% łącznych parametrów)

Dekodowanie tekstu tylko raz, na końcu ostatniej rundy rekursji

Współdzielenie pojedynczej kopii modelu bazowego między agentami pełniącymi różne role w systemie

Mocne strony i ograniczenia

Mocne strony

✓2,4× szybsze wnioskowanie względem wieloagentowych systemów komunikujących się tekstem

✓Redukcja zużycia tokenów o 75,6% w trzeciej rundzie rekursji vs Recursive-TextMAS

✓Średnio 8,3% wyższa dokładność niż najsilniejsze bazowe metody na 9 benchmarkach

✓Koszt treningu ponad 2× niższy niż pełny fine-tuning — aktualizowane jest tylko ~13 mln parametrów

✓Działa heterogenicznie — łączy modele różnych rodzin (Qwen, Llama-3, Gemma3, Mistral) w jednym systemie

✓Oszczędność pamięci GPU dzięki współdzieleniu jednej kopii modelu bazowego przez wiele ról agentowych

✓Kod i wagi modeli udostępnione publicznie na licencji Apache 2.0 (GitHub, Hugging Face)

Ograniczenia

✗Sekwencyjna natura łańcucha — agenci w jednej rundzie muszą wykonywać się po kolei (output→input), brak parallelizmu wewnątrzrundowego

✗Walidacja przeprowadzona głównie dla 3–4 agentów; zachowanie przy większej liczbie pozostaje otwartym pytaniem badawczym

✗Skuteczność przy bardzo długich kontekstach nie została jeszcze zmierzona

✗Eksperymenty ograniczone do otwartych modeli (Qwen, Llama-3, Gemma3, Mistral) — brak walidacji dla modeli zamkniętych i architektur MoE

✗Przekazywanie ukrytych stanów wymaga zgodności wersji modeli — aktualizacja jednego modelu bazowego może wymagać retreningu RecursiveLink

✗Brak interpretowalności pośrednich kroków — rozumowanie odbywa się w przestrzeni embeddingów, nie w tekście czytelnym dla człowieka

✗Trening end-to-end nadal wymaga propagacji wstecznej przez łańcuch dużych modeli, mimo zamrożenia ich wag

Komponenty

Inner RecursiveLinkWewnątrzagentowa pętla ukrytych myśli

Lekka dwuwarstwowa sieć wewnątrz pojedynczego agenta. Mapuje ostatnie ukryte stany modelu z powrotem do jego przestrzeni wejściowej, tworząc pętlę pośredniego rozumowania bez generowania tekstu.

Outer RecursiveLinkMiędzyagentowy most embeddingów

Lekka dwuwarstwowa sieć pomostowa łącząca dwóch sąsiednich agentów. Dopasowuje ukryte stany jednego modelu do przestrzeni wejściowej drugiego, gdy modele mają różne wymiary embeddingów.

Zamrożone modele bazoweAgenci wykonujący rozumowanie

Pretrenowane LLM (testowane na Qwen, Llama-3, Gemma3, Mistral) pełniące rolę agentów. Wagi pozostają zamrożone w czasie treningu — aktualizowane są wyłącznie parametry RecursiveLink.

Oficjalna

Ewolucja

Oryginalny paper · 2026 · Preprint (UIUC, Stanford)

RecursiveMAS: Recursive Multi-Agent Systems with Hidden-State Communication

2026

Publikacja RecursiveMAS

Punkt przełomowy

Badacze z UIUC i Stanford publikują framework wraz z kodem i wagami na licencji Apache 2.0 (GitHub, Hugging Face).

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba rund rekursjiKrytyczna

Ile razy łańcuch agentów wykonuje się przed wygenerowaniem finalnej odpowiedzi. Większa liczba rund zwiększa dokładność, ale skaluje liniowo koszty obliczeniowe.

Liczba agentów w łańcuchuWysoka

Liczba modeli bazowych biorących udział w pojedynczej rundzie rekursji. Walidowane do 3–4 agentów; skalowanie wyżej pozostaje otwartym pytaniem badawczym.

Wymiar ukryty RecursiveLinkŚrednia

Wymiar wewnętrzny dwuwarstwowej sieci RecursiveLink. Wpływa na łączną liczbę parametrów (~13 mln w konfiguracji referencyjnej).

Złożoność obliczeniowa

Charakterystyki obliczeniowe

→Inferencja: 1,2×–2,4× szybsza niż wieloagentowy odpowiednik tekstowy (zależnie od konfiguracji)

→Zużycie tokenów: −34,6% w pierwszej rundzie, −75,6% w trzeciej rundzie vs Recursive-TextMAS (efekt skumulowany)

→Trening: aktualizacja ~13 mln parametrów RecursiveLink (~0,31% sumy parametrów modeli bazowych)

→Koszt treningu ponad 2× niższy niż pełny fine-tuning łańcucha modeli

→Pamięć GPU: pojedyncza kopia modelu bazowego obsługuje wiele ról agentowych przez osobne zestawy RecursiveLink

→Dokładność: średnio +8,3% względem najsilniejszych baselines na 9 benchmarkach

→Skala walidacji: 3–4 agentów w jednym łańcuchu rekursji

Uwagi do benchmarku

RecursiveMAS przetestowano na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania objęły samodzielne modele z LoRA i pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad) oraz Recursive-TextMAS (ten sam schemat rekurencyjny, ale komunikacja przez tekst). Średnia przewaga nad najsilniejszymi metodami bazowymi wyniosła 8,3%. Największy dystans odnotowano na zadaniach intensywnie wykorzystujących rozumowanie: +18,1% nad TextGrad na AIME2025 i +13% na AIME2026.

Paradygmat wykonania

Tryb główny

conditional

Każda runda rekursji aktywuje pełny łańcuch agentów; tryb conditional odnosi się do liczby rund (zatrzymanie zależne od stanu).

Wzorzec aktywacji

stage_dependent

Równoległość

Poziom równoległości

sequential

W obrębie jednej rundy rekursji agenci muszą być przetwarzani sekwencyjnie (wyjście jednego = wejście kolejnego). Trening pojedynczych RecursiveLink może być równoległy między rundami batcha.

Zakres

inferenceacross_devices

Wymagania sprzętowe

Podstawowe

Inferencja LLM dominuje koszt; RecursiveLink to dodatkowo lekkie operacje macierzowe na ukrytych reprezentacjach.

Źródła

How RecursiveMAS speeds up multi-agent inference by 2.4x and reduces token usage by 75%

article

VentureBeat

RecursiveMAS repository

Repozytorium

GitHub

RecursiveMAS model weights

code

Hugging Face