RecursiveMAS
Jak działa
Architektura składa się z dwóch wariantów modułu RecursiveLink — lekkiej dwuwarstwowej sieci. Inner RecursiveLink działa wewnątrz pojedynczego agenta: zamiast dekodować tekst podczas pośredniego rozumowania, mapuje generowane embeddingi z ostatniej warstwy z powrotem do przestrzeni wejściowej tego samego modelu, tworząc pętlę „ukrytych myśli”. Outer RecursiveLink łączy różne agenty: dopasowuje embeddingi między modelami o różnych wymiarach przestrzeni reprezentacji (np. Qwen ↔ Llama-3 ↔ Gemma3 ↔ Mistral). Wagi modeli bazowych są zamrożone — gradient trenuje wyłącznie parametry RecursiveLink, co stanowi około 0,31% łącznych parametrów. Jeśli dwóch agentów korzysta z tego samego modelu bazowego w różnych rolach, do pamięci GPU ładowana jest jedna kopia modelu i dwa zestawy parametrów RecursiveLink.
Rozwiązany problem
Standardowe systemy wieloagentowe (MAS) tracą wydajność na komunikacji przez tekst: każdy agent musi dekodować rozumowanie do tokenów, a następny agent koduje je z powrotem do embeddingów. To podwójne tłumaczenie zwiększa latencję, zużycie tokenów i utrudnia trening end-to-end przez gradienty.
Kluczowe mechanizmy
Mocne strony i ograniczenia
Komponenty
Lekka dwuwarstwowa sieć wewnątrz pojedynczego agenta. Mapuje ostatnie ukryte stany modelu z powrotem do jego przestrzeni wejściowej, tworząc pętlę pośredniego rozumowania bez generowania tekstu.
Lekka dwuwarstwowa sieć pomostowa łącząca dwóch sąsiednich agentów. Dopasowuje ukryte stany jednego modelu do przestrzeni wejściowej drugiego, gdy modele mają różne wymiary embeddingów.
Pretrenowane LLM (testowane na Qwen, Llama-3, Gemma3, Mistral) pełniące rolę agentów. Wagi pozostają zamrożone w czasie treningu — aktualizowane są wyłącznie parametry RecursiveLink.
Oficjalna
Ewolucja
Badacze z UIUC i Stanford publikują framework wraz z kodem i wagami na licencji Apache 2.0 (GitHub, Hugging Face).
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Ile razy łańcuch agentów wykonuje się przed wygenerowaniem finalnej odpowiedzi. Większa liczba rund zwiększa dokładność, ale skaluje liniowo koszty obliczeniowe.
Liczba modeli bazowych biorących udział w pojedynczej rundzie rekursji. Walidowane do 3–4 agentów; skalowanie wyżej pozostaje otwartym pytaniem badawczym.
Wymiar wewnętrzny dwuwarstwowej sieci RecursiveLink. Wpływa na łączną liczbę parametrów (~13 mln w konfiguracji referencyjnej).
Złożoność obliczeniowa
RecursiveMAS przetestowano na 9 benchmarkach obejmujących matematykę, nauki ścisłe i medycynę, generowanie kodu oraz odpowiadanie na pytania z wyszukiwaniem. Porównania objęły samodzielne modele z LoRA i pełnym fine-tuningiem, alternatywne frameworki wieloagentowe (Mixture-of-Agents, TextGrad) oraz Recursive-TextMAS (ten sam schemat rekurencyjny, ale komunikacja przez tekst). Średnia przewaga nad najsilniejszymi metodami bazowymi wyniosła 8,3%. Największy dystans odnotowano na zadaniach intensywnie wykorzystujących rozumowanie: +18,1% nad TextGrad na AIME2025 i +13% na AIME2026.
Paradygmat wykonania
Każda runda rekursji aktywuje pełny łańcuch agentów; tryb conditional odnosi się do liczby rund (zatrzymanie zależne od stanu).
Równoległość
W obrębie jednej rundy rekursji agenci muszą być przetwarzani sekwencyjnie (wyjście jednego = wejście kolejnego). Trening pojedynczych RecursiveLink może być równoległy między rundami batcha.
Wymagania sprzętowe
Inferencja LLM dominuje koszt; RecursiveLink to dodatkowo lekkie operacje macierzowe na ukrytych reprezentacjach.