Robocikowo>ROBOCIKOWO
Robotyka

WAM

2025EksperymentalnyOpublikowany
Wzorzec architektoniczny w robotyce, który łączy model świata (World Model) z polityką wizji-języka-działania (VLA) w jeden zunifikowany system. Model uczy się wspólnie przewidywać przyszłe obserwacje wizualne oraz generować sekwencje akcji, traktując zarówno klatki wideo, jak i tokeny akcji jako elementy autoregresywnej (lub dyfuzyjnej) sekwencji.
Kluczowa innowacja
Wspólny trening predykcji świata i generowania akcji w jednym autoregresywnym transformerze — model uczy się jednocześnie dynamiki fizycznej (przyszłe obserwacje wizualne) i polityki robotycznej (sekwencje akcji), budując bogatsze reprezentacje ucieleśnione bez oddzielnych sieci world modelu i polityki.
Kategoria
Robotyka
Poziom abstrakcji
Pattern
Zastosowania
Manipulacja w nowych środowiskach z zero-shot transferemRoboty humanoidalne wymagające zrozumienia dynamiki fizycznejPretrening na dużych korpusach wideo bez etykiet akcjiLong-horizon task planning przez rollout w latencie

Jak działa

Model bazuje zwykle na architekturze transformera (autoregresywnego lub z głową dyfuzyjną) i przetwarza wspólną sekwencję tokenów wizualnych (zakodowanych klatek wideo), tokenów językowych oraz tokenów akcji. Podczas treningu maskuje się różne podsekwencje: gdy zamaskowane są tokeny akcji, model uczy się polityki; gdy zamaskowane są tokeny przyszłych klatek, model uczy się world modelu. Wspólne osadzenie pozwala na transfer reprezentacji między zadaniami. Podczas inferencji model generuje sekwencje akcji autoregresywnie lub poprzez denoising dyfuzyjny, opcjonalnie wykonując rollout przyszłych obserwacji jako wewnętrzną symulację (planowanie w przestrzeni latentnej).

Rozwiązany problem

Klasyczne polityki VLA uczą się mapować obserwację i instrukcję bezpośrednio na akcję, bez eksplicytnego rozumienia, jak ta akcja zmieni świat. Prowadzi to do słabej generalizacji w nowych środowiskach, kruchych zachowań przy zaburzeniach oraz braku możliwości planowania długoterminowego. WAM rozwiązuje ten problem, zmuszając model do nauczenia się rozkładu przyszłych obserwacji uwarunkowanych akcją — co dostarcza gęstego sygnału uczącego o dynamice fizycznej, nawet z danych bez etykiet akcji (czyste wideo).

Komponenty

Visual tokenizer
Action head
Future-frame decoder
Language conditioning

Implementacja

Pułapki implementacyjne
Kolaps na łatwiejsze zadanieKrytyczna

Bez ostrożnego ważenia strat model może uczyć się głównie predykcji wideo (łatwiejszy sygnał z pixel reconstruction) i zaniedbywać akcje, lub odwrotnie. Wymaga adaptacyjnego balansowania.

Słaba tokenizacja akcjiWysoka

Naiwne dyskretyzowanie akcji (per-dim binning) skutkuje słabym sterowaniem high-frequency. Konieczne są lepsze schematy (FAST, VQ-VAE na akcjach) lub ciągłe głowy dyfuzyjne.

Wysoki koszt obliczeniowy treninguWysoka

Wspólne modelowanie wideo i akcji zwiększa rozmiar sekwencji i pamięć VRAM o rząd wielkości względem czystego VLA. Pretrening wymaga dziesiątek H100.

Sim-to-real gap w rolloutŚrednia

Generative rollout w przestrzeni latentnej akumuluje błędy predykcji — planowanie głębsze niż kilka kroków staje się niewiarygodne. Wymaga regularnego re-grounding na rzeczywistej obserwacji.

Ewolucja

Oryginalny paper · 2025 · Jun Cen
WorldVLA: Towards Autoregressive Action World Model
Jun Cen, et al. (Alibaba DAMO Academy)
2018
Ha & Schmidhuber publikują World Models — model generatywny środowiska + kontroler trenowany w marzeniach (rollouts w latencie).
2023
RT-2 (Google DeepMind) ustanawia VLA jako foundation model dla manipulacji — bez eksplicytnego modelu świata.
2024
Video Prediction Policy (arXiv:2412.14803) pokazuje, że pretrening na predykcji wideo poprawia uczenie polityk manipulacji.
2025
WorldVLA (Cen et al., Alibaba DAMO) ujednolica predykcję akcji i predykcję obserwacji w jednym autoregresywnym transformerze, krystalizując wzorzec WAM.
2025
Wzorzec WAM jest adoptowany przez producentów humanoidów (Figure, Physical Intelligence, 1X) jako podstawa generacji embodied foundation models.
Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Action tokenization schemeWysoka

Sposób dyskretyzacji ciągłych akcji na tokeny (per-dim binning, VQ, FAST). Wpływa na tempo treningu i precyzję sterowania.

Future prediction horizonWysoka

Liczba przyszłych klatek przewidywanych przez model. Krótszy horyzont = łatwiejszy trening; dłuższy = lepsze planowanie.

Action vs video loss weightingKrytyczna

Stosunek wagi straty na predykcji akcji i predykcji wideo. Zbyt mała waga wideo redukuje WAM do zwykłego VLA.

Decoder architectureŚrednia

Wybór dekodera akcji: czysto autoregresywny transformer vs głowa dyfuzyjna na końcu transformera.

Pretraining data mixWysoka

Proporcja wideo bez akcji (np. Ego4D, Something-Something) do danych z teleoperacji (Open X-Embodiment).

Paradygmat wykonania

Tryb główny
dense
Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
partially_parallel
Zakres
trainingacross_tokens

Wymagania sprzętowe

Podstawowe
Dobry fit