WAM
Jak działa
Model bazuje zwykle na architekturze transformera (autoregresywnego lub z głową dyfuzyjną) i przetwarza wspólną sekwencję tokenów wizualnych (zakodowanych klatek wideo), tokenów językowych oraz tokenów akcji. Podczas treningu maskuje się różne podsekwencje: gdy zamaskowane są tokeny akcji, model uczy się polityki; gdy zamaskowane są tokeny przyszłych klatek, model uczy się world modelu. Wspólne osadzenie pozwala na transfer reprezentacji między zadaniami. Podczas inferencji model generuje sekwencje akcji autoregresywnie lub poprzez denoising dyfuzyjny, opcjonalnie wykonując rollout przyszłych obserwacji jako wewnętrzną symulację (planowanie w przestrzeni latentnej).
Rozwiązany problem
Klasyczne polityki VLA uczą się mapować obserwację i instrukcję bezpośrednio na akcję, bez eksplicytnego rozumienia, jak ta akcja zmieni świat. Prowadzi to do słabej generalizacji w nowych środowiskach, kruchych zachowań przy zaburzeniach oraz braku możliwości planowania długoterminowego. WAM rozwiązuje ten problem, zmuszając model do nauczenia się rozkładu przyszłych obserwacji uwarunkowanych akcją — co dostarcza gęstego sygnału uczącego o dynamice fizycznej, nawet z danych bez etykiet akcji (czyste wideo).
Komponenty
Implementacja
Bez ostrożnego ważenia strat model może uczyć się głównie predykcji wideo (łatwiejszy sygnał z pixel reconstruction) i zaniedbywać akcje, lub odwrotnie. Wymaga adaptacyjnego balansowania.
Naiwne dyskretyzowanie akcji (per-dim binning) skutkuje słabym sterowaniem high-frequency. Konieczne są lepsze schematy (FAST, VQ-VAE na akcjach) lub ciągłe głowy dyfuzyjne.
Wspólne modelowanie wideo i akcji zwiększa rozmiar sekwencji i pamięć VRAM o rząd wielkości względem czystego VLA. Pretrening wymaga dziesiątek H100.
Generative rollout w przestrzeni latentnej akumuluje błędy predykcji — planowanie głębsze niż kilka kroków staje się niewiarygodne. Wymaga regularnego re-grounding na rzeczywistej obserwacji.
Ewolucja
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Sposób dyskretyzacji ciągłych akcji na tokeny (per-dim binning, VQ, FAST). Wpływa na tempo treningu i precyzję sterowania.
Liczba przyszłych klatek przewidywanych przez model. Krótszy horyzont = łatwiejszy trening; dłuższy = lepsze planowanie.
Stosunek wagi straty na predykcji akcji i predykcji wideo. Zbyt mała waga wideo redukuje WAM do zwykłego VLA.
Wybór dekodera akcji: czysto autoregresywny transformer vs głowa dyfuzyjna na końcu transformera.
Proporcja wideo bez akcji (np. Ego4D, Something-Something) do danych z teleoperacji (Open X-Embodiment).