World Action Models — czym są i jak działają modele uczące robotów z wideo

Modele VLA (Vision-Language-Action) stały się w ostatnich latach podstawowym podejściem do budowania robotycznych systemów sterowania opartych na sztucznej inteligencji. Ich następca — World Action Model (WAM) — to nowa kategoria architektury, która zamiast opierać naukę wyłącznie na parach obraz–instrukcja–akcja, wykorzystuje generowanie wideo jako pośredni mechanizm planowania ruchu. DreamZero, opracowany przez zespół NVIDIA i opublikowany w lutym 2026 roku jako praca naukowa na arXiv, jest pierwszym publicznie opisanym systemem tej klasy działającym w czasie rzeczywistym na prawdziwym robocie. Warto go zrozumieć, bo wyznacza kierunek, w którym może zmierzać projektowanie robotycznych modeli fundamentalnych.

Najważniejsze w skrócie

WAM (World Action Model) to architektura, w której robot uczy się przewidywać przyszłe klatki wideo iodpowiadające im akcje jednocześnie — zamiast uczyć się akcji bezpośrednio ze statycznych obrazów.
DreamZero to konkretna implementacja WAM opracowana przez NVIDIA — model o 14 miliardach parametrów zbudowany na bazie pretrenowanego modelu dyfuzji wideo.
W eksperymentach z prawdziwymi robotami osiąga ponad 2-krotnie wyższy wskaźnik powodzenia na nieznanych wcześniej zadaniach w porównaniu do najlepszych aktualnych modeli VLA.
Działa w pętli zamkniętej z częstotliwością 7 Hz — co jest możliwe dzięki 38-krotnemu przyspieszeniu wnioskowania względem wersji bazowej.
Model i kod wnioskowania są dostępne jako open-source na GitHub.

Czym jest World Action Model (WAM)?

WAM to architektura modelu uczenia maszynowego przeznaczona do sterowania robotem. Nie jest to model językowy, platforma, framework ani środowisko symulacyjne — to konkretna klasa modeli predykcyjnych, w której robot zamiast bezpośrednio odwzorowywać obraz na ruch, najpierw „wyobraża sobie" wizualną przyszłość, a następnie wyprowadza z niej działania.

Kluczowy mechanizm jest następujący: model przyjmuje na wejściu aktualny obraz z kamery, historię poprzednich klatek oraz instrukcję w języku naturalnym, a na wyjściu generuje jednocześnie:

sekwencję przyszłych klatek wideo (jak środowisko będzie wyglądać),
sekwencję akcji motorycznych (jakie ruchy należy wykonać, aby do tego stanu doprowadzić).

To podejście jest konceptualnie bliższe temu, jak działają modele planowania oparte na modelach świata (ang. model-based reinforcement learning), ale zamiast budować skompresowaną reprezentację latentną, WAM używa wideo — bogatego, pixelowego opisu stanu świata.

Termin „World Action Model" zaproponowany przez autorów DreamZero jest celowo szerszy niż „Video Action Model" — sugeruje, że video jest jednym możliwym medium predykcji świata, ale w przyszłości mogą to być też sygnały dotykowe, siłowe czy inne reprezentacje sensoryczne.

Kto za nią stoi?

DreamZero został opracowany przez duży, multidyscyplinarny zespół badaczy z NVIDIA. Autorami kierującymi projektem są Linxi „Jim" Fan, Yuke Zhu, Joel Jang i Seonghyeon Ye. Praca ukazała się 17 lutego 2026 roku jako preprint na arXiv (cs.RO) i obejmuje kategorię robotyki oraz widzenia komputerowego. Strona projektu z materiałami wideo dostępna jest pod adresem dreamzero0.github.io. Kod, wagi modelu oraz benchmarki zostały udostępnione jako open-source.

Status: praca naukowa z eksperymentami na rzeczywistych robotach, opublikowana jako preprint — nie jest to produkt komercyjny ani oficjalnie wdrożony system produkcyjny.

Jak działa?

DreamZero jest zbudowany na bazie pretrenowanego modelu dyfuzji wideo (backbone oparty na Wan, modelu NVIDIA). Architektura to autoregresywny Diffusion Transformer (DiT) o 14 miliardach parametrów.

Trzy wejścia modelu:

obraz z kamery (kodowany przez VAE),
instrukcja tekstowa (kodowana przez enkoder tekstu),
stan proprioceptywny robota (pozycje stawów, konfiguracja ramienia).

Wyjście: jednoczesna predykcja przyszłych klatek wideo i odpowiadających im akcji motorycznych, generowana przez oddzielne dekodery dla każdej modalności, ale trenowana wspólnym celem dyfuzji (flow matching).

Kluczowe jest to, że predykcja odbywa się chunk-wise — w blokach po kilka klatek, a nie klatka po klatce. Po wykonaniu każdego bloku akcji system pobiera rzeczywiste obserwacje z kamery i zastępuje nimi wygenerowane klatki w pamięci KV cache. Dzięki temu eliminowany jest problem kumulacji błędów typowy dla autoregresywnych modeli wideo.

Trenowanie opiera się na technice flow matching — podejściu pokrewnym dyfuzji, które uczy modelu przechodzenia od szumu do czystego sygnału w sposób liniowy. Kluczową różnicą względem wcześniejszych WAM-ów jest wspólny harmonogram szumienia dla wideo i akcji, co przyspiesza zbieżność treningu.

Z jakich elementów się składa?

Backbone wideo (DiT 14B): pretrenowany model dyfuzji wideo, który enkoduje wiedzę o fizyce i dynamice świata z danych internetowych.
VAE (Variational Autoencoder): kompresuje i dekompresuje klatki wideo do/z przestrzeni latentnej.
Enkoder tekstu: przetwarza instrukcje w języku naturalnym.
Enkoder stanu proprioceptywnego: przetwarza informacje o aktualnej konfiguracji robota.
Dekoderzy wideo i akcji: osobne głowice wyjściowe dla każdej modalności.
KV cache: mechanizm buforowania uwagi, który pozwala na wydajne wnioskowanie sekwencyjne.
DreamZero-Flash: wariant z rozdzielonymi harmonogramami szumienia dla wideo i akcji, który redukuje liczbę kroków dyfuzji do jednego kroku przy zachowaniu jakości.

W wersji zoptymalizowanej system działa na dwóch GPU (jeden do warunkowego, drugi do bezwarunkowego przejścia przez sieć w ramach Classifier-Free Guidance), z kwantyzacją NVFP4 na architekturze GB200, co łącznie daje 38-krotne przyspieszenie względem naiwnej implementacji.

Do czego może być używany?

Autorzy przetestowali DreamZero w kilku scenariuszach:

Manipulacja obiektami: chwytanie owoców, składanie ubrań, nakładanie i zdejmowanie kapeluszy, pakowanie.
Zadania kontaktowe: prasowanie ubrań, rysowanie, rozwiązywanie sznurowadeł — czyli zadania wymagające precyzyjnej koordynacji ruchowej.
Zadania nigdy wcześniej niewidziane: robot nie był trenowany na tych zadaniach — mimo to osiąga 39,5% postępu na nieznanych czynnościach (jak podanie ręki czy rysowanie okręgu).
Transfer między platformami sprzętowymi: po 30 minutach danych play data na nowym robocie YAM model generalizuje na nieznane obiekty.
Interaktywne promptowanie: robot można prowadzić po środowisku i prosić o nowe zadania ad-hoc.

Potencjalny zakres zastosowań obejmuje robotykę usługową, produkcyjną i badawczą — wszędzie tam, gdzie wymagana jest zdolność do wykonywania nowych zadań bez specjalistycznego trenowania pod każde z nich. Jest to obszar ściśle powiązany z szerszym pojęciem Embodied AI — kierunku badań, w którym modele AI uczą się przez fizyczną interakcję ze środowiskiem.

Czym różni się od innych rozwiązań?

Porównanie z modelami VLA, takimi jak GR00T N1.6 (NVIDIA) czy π0.5 (Physical Intelligence):

VLA-e są trenowane na statycznych zbiorach obrazów i tekstów — dziedziczą wiedzę semantyczną (co to jest banan, gdzie jest talerz), ale nie mają modelu fizycznej dynamiki. Gdy zadanie wymaga nowego ruchu, którego w danych treningowych nie było (np. rozwiązania węzła), VLA nie potrafi go wygenerować — model nie „wie", jak taki ruch ma wyglądać w czasie.

WAM uzupełnia tę lukę: model pretrenowany na wideo z internetu rozumie, jak przedmioty poruszają się w czasie, jak zmienia się kształt tkaniny, jak obraca się butelka. To wiedza o dynamice świata, której VLA nie posiada.

W eksperymentach z benchmarkiem AgiBot, DreamZero osiągnął 62,2% postępu zadania na znanych zadaniach w nowych środowiskach, podczas gdy najlepszy pretrenowany VLA osiągnął 27,4%. Na zadaniach nieznanych różnica była jeszcze wyraźniejsza: 39,5% vs. wartości bliskie zeru dla modeli VLA trenowanych od zera.

Warto zaznaczyć, że porównanie jest prowadzone na danych i środowiskach przygotowanych przez autorów DreamZero — niezależna weryfikacja tych wyników przez zewnętrzne grupy badawcze nie była jeszcze możliwa w momencie publikacji.

Alternatywnym podejściem są latentne modele świata (jak DreamerV3 Hafnera i współpracowników), które budują skompresowaną reprezentację świata w przestrzeni latentnej. Ich zaletą jest mniejszy koszt obliczeniowy, ale tracą bogactwo informacji wizualnej dostępnej w modelach operujących bezpośrednio na pikselach.

Najważniejsze ograniczenia / wyzwania

1. Koszt obliczeniowy. Model 14B parametrów wymaga specjalistycznego sprzętu GPU. Wnioskowanie w 150 ms (wersja Flash na GB200) jest możliwe dzięki zaawansowanym optymalizacjom dostępnym jedynie na najnowszym sprzęcie NVIDIA.

2. Rozmiar i heterogeniczność danych treningowych. Model trenowany był na ~500 godzinach danych teleoperation dla AgiBot G1. To mniej niż systemy takie jak π0.5 (tysiące godzin danych cross-embodiment), ale autorzy wskazują, że kluczowa jest różnorodność danych, a nie ich powtarzalność.

3. Częstotliwość sterowania 7 Hz. Dla szybkich zadań wymagających precyzji czasowej (np. chwytanie ruchomych obiektów) może być niewystarczająca. Systemy dedykowane sterowania niskopoziomowego działają zwykle przy 100–1000 Hz.

4. Trenowanie per-embodiment. Autorzy przyznają, że trenowanie na wielu platformach sprzętowych jednocześnie pozostało poza zakresem tej pracy. Transfer między platformami jest możliwy przez fine-tuning, ale nie przez pojedynczy model ogólny.

5. Status eksperymentalny. DreamZero jest wynikiem badań naukowych, nie produktem komercyjnym. Wyniki eksperymentów są obiecujące, ale zostały przeprowadzone przez twórców systemu — niezależna replikacja jest krokiem niezbędnym do weryfikacji.

6. Błędy w złożonych sekwencjach. Analiza przypadków niepowodzeń (opisana w dodatku H pracy) wskazuje, że model ma trudności z długimi sekwencjami wymagającymi precyzyjnego planowania kolejności kroków.

Dlaczego ta technologia jest istotna?

Jednym z centralnych problemów współczesnej robotyki uczenia przez naśladownictwo (imitation learning) jest potrzeba dużych ilości danych demonstracyjnych dla każdego nowego zadania. Model VLA można pretrenować ogólnie, ale w praktyce generalizacja na zupełnie nowe ruchy pozostaje ograniczona — bo językowe opisy nie kodują fizycznej wiedzy o tym, jak dane działanie powinno wyglądać przestrzennie i czasowo.

WAM-y jako klasa architektury wskazują na możliwe wyjście z tego impasu: jeśli model potrafi przewidywać wizualną przyszłość, może „planować przez generowanie" — zanim wykona ruch, tworzy jego wewnętrzny obraz. To podejście może okazać się bardziej skalowalne niż gromadzenie milionów specjalistycznych demonstracji, bo dane wideo — jako sygnał treningowy — są łatwo dostępne (internet, nagrania z ludzi, inne roboty) i nie wymagają precyzyjnego etykietowania ruchów.

DreamZero demonstruje, że ta ścieżka jest technicznie wykonalna: robot adaptuje się do nowej platformy sprzętowej po 30 minutach swobodnego eksplorowania, a nie po setkach godzin curated demonstrations. Wynik ten, jeśli zostanie potwierdzony przez niezależne grupy badawcze, może to sugerować zmianę w sposobie myślenia o zbieraniu danych do trenowania robotów. Otwarte pytanie pozostaje jednak takie: na ile wyniki z kontrolowanych eksperymentów laboratoryjnych przekładają się na środowiska rzeczywiste z pełną zmiennością świata.

Podsumowanie

World Action Model to architektura, w której robot uczy się fizyki świata przez przewidywanie wideo, a nie przez zapamiętywanie par akcji. DreamZero jest pierwszą publicznie dostępną implementacją tej klasy działającą w czasie rzeczywistym. Kluczowe cechy to: lepsza generalizacja na nowe zadania i środowiska, efektywny transfer między platformami sprzętowymi oraz dostępność jako open-source. Model ma istotne ograniczenia — koszt obliczeniowy, brak wieloplatformowego trenowania i status eksperymentalny — ale wyznacza kierunek badań, który może mieć konsekwencje dla całej dziedziny robotyki uczenia się.

Źródła

arXiv – Ye i in., „World Action Models are Zero-shot Policies" – https://arxiv.org/abs/2602.15922
Strona projektu DreamZero – opisy eksperymentów, materiały wideo – https://dreamzero0.github.io/
GitHub – repozytorium DreamZero, kod wnioskowania i wagi modelu – https://github.com/dreamzero0/dreamzero
arXiv HTML (pełny tekst pracy z sekcjami technicznymi) – https://arxiv.org/html/2602.15922v1
DROID dataset – zbiór danych do trenowania robotów (Franka) – https://droid-dataset.github.io/