Robocikowo>ROBOCIKOWO
Architektura

RecursiveMAS

2026BadawczyOpublikowany
RecursiveMAS to framework systemu wieloagentowego, w którym agenci wymieniają między sobą ukryte stany sieci zamiast tekstu, a cały łańcuch działa jak rekurencyjna pętla warstw nad zamrożonymi modelami bazowymi.
Kluczowa innowacja
Agenci w systemie wieloagentowym komunikują się ukrytymi reprezentacjami (last-layer hidden states) zamiast wygenerowanymi tokenami tekstu, eliminując narzut dekodowania i kodowania między modelami.
Kategoria
Architektura
Poziom abstrakcji
Pattern
Poziom operacji
SystemInferencjaTreningŚrodowisko agentoweOrkiestracja
Zastosowania
Wieloagentowe pipeline'y rozumowania matematycznegoSystemy wieloagentowe do generowania koduMulti-agent QA z wyszukiwaniem i weryfikacjąAgenci medyczni z wieloetapową diagnostykąHeterogeniczne zespoły LLM (różne modele bazowe w jednym systemie)Redukcja kosztów tokenów w wieloagentowych wdrożeniach produkcyjnych

Jak działa

Architektura składa się z dwóch wariantów modułu RecursiveLink — lekkiej dwuwarstwowej sieci. Inner RecursiveLink działa wewnątrz pojedynczego agenta: zamiast dekodować tekst podczas pośredniego rozumowania, mapuje generowane embeddingi z ostatniej warstwy z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę „ukrytych myśli”. Outer RecursiveLink łączy różne agenty: dopasowuje embeddingi między modelami o różnych wymiarach przestrzeni reprezentacji (np. Qwen ↔ Llama-3 ↔ Gemma3 ↔ Mistral). Wagi modeli bazowych są zamrożone — gradient trenuje wyłącznie parametry RecursiveLink, co stanowi około 0,31% łącznych parametrów. Jeśli dwóch agentów korzysta z tego samego modelu bazowego w różnych rolach, do pamięci GPU ładowana jest jedna kopia modelu i dwa zestawy parametrów RecursiveLink.

Rozwiązany problem

Standardowe systemy wieloagentowe (MAS) tracą wydajność na komunikacji przez tekst: każdy agent musi dekodować rozumowanie do tokenów, a następny agent koduje je z powrotem do embeddingów. To podwójne tłumaczenie zwiększa latencję, zużycie tokenów i utrudnia trening end-to-end przez gradienty.

Kluczowe mechanizmy

Komunikacja przez ostatnie ukryte stany (last-layer hidden states) zamiast wygenerowanych tokenów tekstu
Rekurencyjna pętla agentów — wyjście ostatniego agenta wraca do pierwszego, otwierając kolejną rundę rozumowania
Inner RecursiveLink — wewnątrzagentowa pętla mapująca embeddingi z powrotem do przestrzeni wejściowej modelu
Outer RecursiveLink — międzyagentowy most dopasowujący embeddingi między modelami o różnych wymiarach
Zamrożenie wag modeli bazowych i trening wyłącznie lekkich modułów RecursiveLink (~0,31% łącznych parametrów)
Dekodowanie tekstu tylko raz, na końcu ostatniej rundy rekursji
Współdzielenie pojedynczej kopii modelu bazowego między agentami pełniącymi różne role w systemie

Mocne strony i ograniczenia

Mocne strony
2,4× szybsze wnioskowanie względem wieloagentowych systemów komunikujących się tekstem
Redukcja zużycia tokenów o 75,6% w trzeciej rundzie rekursji vs Recursive-TextMAS
Średnio 8,3% wyższa dokładność niż najsilniejsze bazowe metody na 9 benchmarkach
Koszt treningu ponad 2× niższy niż pełny fine-tuning — aktualizowane jest tylko ~13 mln parametrów
Działa heterogenicznie — łączy modele różnych rodzin (Qwen, Llama-3, Gemma3, Mistral) w jednym systemie
Oszczędność pamięci GPU dzięki współdzieleniu jednej kopii modelu bazowego przez wiele ról agentowych
Kod i wagi modeli udostępnione publicznie na licencji Apache 2.0 (GitHub, Hugging Face)
Ograniczenia
Sekwencyjna natura łańcucha — agenci w jednej rundzie muszą wykonywać się po kolei (output→input), brak parallelizmu wewnątrzrundowego
Walidacja przeprowadzona głównie dla 3–4 agentów; zachowanie przy większej liczbie pozostaje otwartym pytaniem badawczym
Skuteczność przy bardzo długich kontekstach nie została jeszcze zmierzona
Eksperymenty ograniczone do otwartych modeli (Qwen, Llama-3, Gemma3, Mistral) — brak walidacji dla modeli zamkniętych i architektur MoE
Przekazywanie ukrytych stanów wymaga zgodności wersji modeli — aktualizacja jednego modelu bazowego może wymagać retreningu RecursiveLink
Brak interpretowalności pośrednich kroków — rozumowanie odbywa się w przestrzeni embeddingów, nie w tekście czytelnym dla człowieka
Trening end-to-end nadal wymaga propagacji wstecznej przez łańcuch dużych modeli, mimo zamrożenia ich wag

Komponenty

Inner RecursiveLinkWewnątrzagentowa pętla ukrytych myśli

Lekka dwuwarstwowa sieć wewnątrz pojedynczego agenta. Mapuje ostatnie ukryte stany modelu z powrotem do jego przestrzeni wejściowej, tworząc pętlę pośredniego rozumowania bez generowania tekstu.

Outer RecursiveLinkMiędzyagentowy most embeddingów

Lekka dwuwarstwowa sieć pomostowa łącząca dwóch sąsiednich agentów. Dopasowuje ukryte stany jednego modelu do przestrzeni wejściowej drugiego, gdy modele mają różne wymiary embeddingów.

Zamrożone modele bazoweAgenci wykonujący rozumowanie

Pretrenowane LLM (testowane na Qwen, Llama-3, Gemma3, Mistral) pełniące rolę agentów. Wagi pozostają zamrożone w czasie treningu — aktualizowane są wyłącznie parametry RecursiveLink.

Oficjalna

Ewolucja

Oryginalny paper · 2026 · Preprint (UIUC, Stanford)
RecursiveMAS: Recursive Multi-Agent Systems with Hidden-State Communication
2026
Publikacja RecursiveMAS
Punkt przełomowy

Badacze z UIUC i Stanford publikują framework wraz z kodem i wagami na licencji Apache 2.0 (GitHub, Hugging Face).

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba rund rekursjiKrytyczna

Ile razy łańcuch agentów wykonuje się przed wygenerowaniem finalnej odpowiedzi. Większa liczba rund zwiększa dokładność, ale skaluje liniowo koszty obliczeniowe.

Liczba agentów w łańcuchuWysoka

Liczba modeli bazowych biorących udział w pojedynczej rundzie rekursji. Walidowane do 3–4 agentów; skalowanie wyżej pozostaje otwartym pytaniem badawczym.

Wymiar ukryty RecursiveLinkŚrednia

Wymiar wewnętrzny dwuwarstwowej sieci RecursiveLink. Wpływa na łączną liczbę parametrów (~13 mln w konfiguracji referencyjnej).

Złożoność obliczeniowa

Charakterystyki obliczeniowe
Inferencja: 1,2×–2,4× szybsza niż wieloagentowy odpowiednik tekstowy (zależnie od konfiguracji)
Zużycie tokenów: −34,6% w pierwszej rundzie, −75,6% w trzeciej rundzie vs Recursive-TextMAS (efekt skumulowany)
Trening: aktualizacja ~13 mln parametrów RecursiveLink (~0,31% sumy parametrów modeli bazowych)
Koszt treningu ponad 2× niższy niż pełny fine-tuning łańcucha modeli
Pamięć GPU: pojedyncza kopia modelu bazowego obsługuje wiele ról agentowych przez osobne zestawy RecursiveLink
Dokładność: średnio +8,3% względem najsilniejszych baselines na 9 benchmarkach
Skala walidacji: 3–4 agentów w jednym łańcuchu rekursji
Uwagi do benchmarku

RecursiveMAS przetestowano na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania objęły samodzielne modele z LoRA i pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad) oraz Recursive-TextMAS (ten sam schemat rekurencyjny, ale komunikacja przez tekst). Średnia przewaga nad najsilniejszymi metodami bazowymi wyniosła 8,3%. Największy dystans odnotowano na zadaniach intensywnie wykorzystujących rozumowanie: +18,1% nad TextGrad na AIME2025 i +13% na AIME2026.

Paradygmat wykonania

Tryb główny
conditional

Każda runda rekursji aktywuje pełny łańcuch agentów; tryb conditional odnosi się do liczby rund (zatrzymanie zależne od stanu).

Wzorzec aktywacji
stage_dependent

Równoległość

Poziom równoległości
sequential

W obrębie jednej rundy rekursji agenci muszą być przetwarzani sekwencyjnie (wyjście jednego = wejście kolejnego). Trening pojedynczych RecursiveLink może być równoległy między rundami batcha.

Zakres
inferenceacross_devices

Wymagania sprzętowe

Podstawowe

Inferencja LLM dominuje koszt; RecursiveLink to dodatkowo lekkie operacje macierzowe na ukrytych reprezentacjach.