Waga kosztu wywołań narzędzi w nagrodzie TRACE. Zaostrzana adaptacyjnie w trakcie treningu.
Waga straty KL w On-Policy Distillation — balans między uczeniem od nauczyciela a własną polityką agenta.
Mechanizm adaptacyjnego zaostrzania progu referencyjnego dla nagrody TRACE — λ jest monotoniczne zwiększane w trakcie treningu.
Trening RL z rolloutem i dystylacją OPD (nauczyciel 235B) wymaga klastra GPU — student 30B + teacher 235B nie mieszczą się na jednej maszynie.
Framework działa w dwóch poziomach: (1) Makro (TRACE): nagroda trajektoryjna r_traj = f(dokładność) − λ · koszt_narzędzi, gdzie λ jest adaptacyjnie zwiększane w trakcie treningu przez mechanizm zaostrzania referencji (Reference Tightening), wymuszając stopniową redukcję liczby wywołań narzędzi bez ograniczania prawdziwego wieloskokowego wyszukiwania. (2) Mikro (On-Policy Distillation): dla rolloutów zakończonych porażką, zewnętrzny model-nauczyciel generuje krok po kroku korekcje na poziomie tokenów; sygnały te są dystylowane do agenta za pomocą straty KL, zapewniając gęste uczenie tam, gdzie nagrody wynikowe są nieinformatywne.
Agenci multimodalni trenowani wyłącznie na nagrodach wynikowych (rzadkich) mają trudności z przypisaniem zasług i nie optymalizują efektywności inferencji — generują zbędne rundy wywołań narzędzi. Dual-Grained EA-RL rozwiązuje oba problemy jednocześnie przez dwupoziomową optymalizację.
Nagroda na poziomie trajektorii, której próg referencyjny jest monotoniczne zaostrzany w trakcie treningu, tłumiąc zbędne wywołania narzędzi.
Oficjalna
Injektuje gęste sygnały korekcyjne na poziomie tokenów od zewnętrznego modelu-nauczyciela dla nieudanych rolloutów.
Oficjalna
Mechanizm adaptacyjnej aktualizacji progu λ — referencja dla TRACE jest zaostrzana po każdej epoce na podstawie aktualnej efektywności agenta.
Oficjalna
Papier HyperEyes (arXiv:2605.07177) prezentuje framework jako centralny wkład, osiągając +9,9% dokładności i 5,3× redukcję rund narzędzi względem najsilniejszego open-source agenta.
Jeśli λ rośnie zbyt szybko, model może ograniczyć uzasadnione wieloskokowe wyszukiwanie, pogarszając dokładność.
On-Policy Distillation wymaga zewnętrznego nauczyciela — słaby nauczyciel może wprowadzić błędne sygnały korekcyjne.