Robotyka

WAM

2025EksperymentalnyOpublikowany

Wzorzec architektoniczny w robotyce, który łączy model świata (World Model) z polityką wizji-języka-działania (VLA) w jeden zunifikowany system. Model uczy się wspólnie przewidywać przyszłe obserwacje wizualne oraz generować sekwencje akcji, traktując zarówno klatki wideo, jak i tokeny akcji jako elementy autoregresywnej (lub dyfuzyjnej) sekwencji.

Kluczowa innowacja

Wspólny trening predykcji świata i generowania akcji w jednym autoregresywnym transformerze — model uczy się jednocześnie dynamiki fizycznej (przyszłe obserwacje wizualne) i polityki robotycznej (sekwencje akcji), budując bogatsze reprezentacje ucieleśnione bez oddzielnych sieci world modelu i polityki.

Kategoria

Robotyka

Poziom abstrakcji

Pattern

Zastosowania

Manipulacja w nowych środowiskach z zero-shot transferemRoboty humanoidalne wymagające zrozumienia dynamiki fizycznejPretrening na dużych korpusach wideo bez etykiet akcjiLong-horizon task planning przez rollout w latencie

Jak działa

Model bazuje zwykle na architekturze transformera (autoregresywnego lub z głową dyfuzyjną) i przetwarza wspólną sekwencję tokenów wizualnych (zakodowanych klatek wideo), tokenów językowych oraz tokenów akcji. Podczas treningu maskuje się różne podsekwencje: gdy zamaskowane są tokeny akcji, model uczy się polityki; gdy zamaskowane są tokeny przyszłych klatek, model uczy się world modelu. Wspólne osadzenie pozwala na transfer reprezentacji między zadaniami. Podczas inferencji model generuje sekwencje akcji autoregresywnie lub poprzez denoising dyfuzyjny, opcjonalnie wykonując rollout przyszłych obserwacji jako wewnętrzną symulację (planowanie w przestrzeni latentnej).

Rozwiązany problem

Klasyczne polityki VLA uczą się mapować obserwację i instrukcję bezpośrednio na akcję, bez eksplicytnego rozumienia, jak ta akcja zmieni świat. Prowadzi to do słabej generalizacji w nowych środowiskach, kruchych zachowań przy zaburzeniach oraz braku możliwości planowania długoterminowego. WAM rozwiązuje ten problem, zmuszając model do nauczenia się rozkładu przyszłych obserwacji uwarunkowanych akcją — co dostarcza gęstego sygnału uczącego o dynamice fizycznej, nawet z danych bez etykiet akcji (czyste wideo).

Komponenty

Visual tokenizer

Action head

Future-frame decoder

Language conditioning

Implementacja

Implementacje referencyjne

WorldVLA (Alibaba DAMO Academy)

Video Prediction Policy

Pułapki implementacyjne

Kolaps na łatwiejsze zadanieKrytyczna

Bez ostrożnego ważenia strat model może uczyć się głównie predykcji wideo (łatwiejszy sygnał z pixel reconstruction) i zaniedbywać akcje, lub odwrotnie. Wymaga adaptacyjnego balansowania.

Słaba tokenizacja akcjiWysoka

Naiwne dyskretyzowanie akcji (per-dim binning) skutkuje słabym sterowaniem high-frequency. Konieczne są lepsze schematy (FAST, VQ-VAE na akcjach) lub ciągłe głowy dyfuzyjne.

Wysoki koszt obliczeniowy treninguWysoka

Wspólne modelowanie wideo i akcji zwiększa rozmiar sekwencji i pamięć VRAM o rząd wielkości względem czystego VLA. Pretrening wymaga dziesiątek H100.

Sim-to-real gap w rolloutŚrednia

Generative rollout w przestrzeni latentnej akumuluje błędy predykcji — planowanie głębsze niż kilka kroków staje się niewiarygodne. Wymaga regularnego re-grounding na rzeczywistej obserwacji.

Ewolucja

Oryginalny paper · 2025 · Jun Cen

WorldVLA: Towards Autoregressive Action World Model

Jun Cen, et al. (Alibaba DAMO Academy)

2018

Ha & Schmidhuber publikują World Models — model generatywny środowiska + kontroler trenowany w marzeniach (rollouts w latencie).

World Models (koncept)

2023

RT-2 (Google DeepMind) ustanawia VLA jako foundation model dla manipulacji — bez eksplicytnego modelu świata.

VLA (koncept)

2024

Video Prediction Policy (arXiv:2412.14803) pokazuje, że pretrening na predykcji wideo poprawia uczenie polityk manipulacji.

2025

WorldVLA (Cen et al., Alibaba DAMO) ujednolica predykcję akcji i predykcję obserwacji w jednym autoregresywnym transformerze, krystalizując wzorzec WAM.

2025

Wzorzec WAM jest adoptowany przez producentów humanoidów (Figure, Physical Intelligence, 1X) jako podstawa generacji embodied foundation models.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Action tokenization schemeWysoka

Sposób dyskretyzacji ciągłych akcji na tokeny (per-dim binning, VQ, FAST). Wpływa na tempo treningu i precyzję sterowania.

Future prediction horizonWysoka

Liczba przyszłych klatek przewidywanych przez model. Krótszy horyzont = łatwiejszy trening; dłuższy = lepsze planowanie.

Action vs video loss weightingKrytyczna

Stosunek wagi straty na predykcji akcji i predykcji wideo. Zbyt mała waga wideo redukuje WAM do zwykłego VLA.

Decoder architectureŚrednia

Wybór dekodera akcji: czysto autoregresywny transformer vs głowa dyfuzyjna na końcu transformera.

Pretraining data mixWysoka

Proporcja wideo bez akcji (np. Ego4D, Something-Something) do danych z teleoperacji (Open X-Embodiment).

Paradygmat wykonania

Tryb główny

dense

Wzorzec aktywacji

all_paths_active

Równoległość

Poziom równoległości

partially_parallel

Zakres

trainingacross_tokens

Wymagania sprzętowe

Podstawowe

Dobry fit

Źródła

WorldVLA: Towards Autoregressive Action World Model

Paper

arXiv

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

arXiv (Ha & Schmidhuber)