Robotyka

MSAT

2026EksperymentalnyOpublikowany

Architektura polityki robotycznej, w której każda modalność (obraz, język, propriocepcja, dotyk) ma własny strumień tokenów, a transformer łączy je przez cross-modal joint self-attention. Wprowadzona w pracy RLDX-1 (RLWRLD, 2026) jako sposób na rozszerzenie VLA o motion awareness, długoterminową pamięć i physical sensing.

Kluczowa innowacja

Integracja heterogenicznych modalności robotycznych (wizja, język, propriocepcja, sensory dotyku, sygnały silników) w postaci osobnych, modalność-specyficznych strumieni tokenów wewnątrz jednego transformera, łączonych przez cross-modal joint self-attention — co pozwala polityce VLA jednocześnie uczyć się broad scene understanding i wąskich zdolności funkcjonalnych (motion awareness, długoterminowa pamięć, physical sensing) bez kompromisów inżynierii potoku.

Kategoria

Robotyka

Poziom abstrakcji

Pattern

Zastosowania

Dexterous manipulation w robotach humanoidalnych z wieloma sensorami (kamera + propriocepcja + dotyk)Generalist robotic policies wymagające zarówno broad VLM-style generalization, jak i wąskich funkcjonalnych zdolnościSterowanie wysokim DoF humanoidów (np. ALLEX) w zadaniach kontaktowych i dynamicznychZadania wymagające long-term memory i motion awareness, gdzie klasyczne VLA zawodzą

Jak działa

Każda modalność wejściowa jest najpierw tokenizowana przez własny enkoder/embedding (np. ViT dla obrazu, tokenizer LLM dla języka, MLP dla propriocepcji, dedykowany koder dla tachilnych). Otrzymane sekwencje tokenów tworzą równoległe strumienie, każdy z własną pozycją i identyfikatorem modalności. Strumienie są konkatenowane do jednej długiej sekwencji wejściowej transformera, gdzie warstwy joint self-attention łączą tokeny ze wszystkich modalności w pojedynczych operacjach uwagi. Wyjściem są tokeny akcji (sekwencje sterowań robota), generowane autoregresywnie lub przez wyspecjalizowaną głowicę. RLDX-1 łączy MSAT z syntezą danych dla rzadkich scenariuszy manipulacji, learning procedures dostrojonymi do human-like manipulation oraz optymalizacjami inferencji dla deploymentu w czasie rzeczywistym.

Rozwiązany problem

Klasyczne VLA pretrenowane na pretreningowych VLM-ach dobrze radzą sobie z rozumieniem sceny i instrukcji, ale słabo z zadaniami wymagającymi wąskich zdolności funkcjonalnych — motion awareness, długoterminową pamięcią, physical sensing. Próby dodawania nowych modalności przez naiwną konkatenację tokenów psują wcześniejsze reprezentacje wizyjno-językowe lub wymagają kruchych potoków per-modalność. MSAT rozwiązuje ten problem strukturalnie: każda modalność ma osobny strumień embeddingu, więc nie psuje innych, a cross-modal joint self-attention zapewnia spójne wspólne rozumowanie.

Komponenty

Modality-specific streams

Cross-modal joint self-attention

Action head

Modality positional/type encoding

Implementacja

Implementacje referencyjne

RLDX-1 Technical Report (paper)

RLDX-1 project page (RLWRLD)

Pułapki implementacyjne

Imbalans strumieni modalnościKrytyczna

Strumienie o silnym sygnale uczącym (wizja, język) mogą dominować uwagę w joint attention i marginalizować strumienie z mniejszą gęstością informacji (propriocepcja, dotyk). Wymaga starannego balansowania straty per modalność lub wag attention.

Eksplozja długości sekwencjiWysoka

Każda nowa modalność zwiększa liczbę tokenów wejściowych transformera. Przy 5+ strumieniach sekwencja staje się zbyt długa dla naiwnej O(n²) uwagi — wymaga sparse attention lub agresywnej tokenizacji.

Zaszumione strumienie sensorówWysoka

Tachiilne i siłowe sygnały są często mocno zaszumione i nieskalibrowane między epizodami. Bez filtracji wstępnej lub specyficznej normalizacji per-strumień, joint attention uczy się szumu.

Latencja inferencji w czasie rzeczywistymŚrednia

Wielomodalna sekwencja zwiększa koszt forward pass. Aby zachować częstotliwość sterowania humanoidów, konieczne są optymalizacje inferencji (KV-cache, action chunking, kompresja tokenów).

Ewolucja

Oryginalny paper · 2026 · Dongyoung Kim

RLDX-1 Technical Report

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Jinwoo Shin, et al. (RLWRLD team, 68 authors)

2023

RT-2 (Google DeepMind) wprowadza VLA jako foundation model dla manipulacji — szerokie zdolności scenowe i językowe, ale ograniczone w zadaniach wymagających bogatego sensorium fizycznego.

VLA (koncept)

2024

Klasyczne Multimodal LLM łączą modalności przez naiwną konkatenację tokenów lub adaptery — co psuje reprezentacje istniejące przy dodaniu nowej modalności.

Multimodal LLM (koncept)

2026

RLDX-1 (RLWRLD, arXiv:2605.03269) wprowadza Multi-Stream Action Transformer — modalność-specyficzne strumienie + cross-modal joint self-attention — przebijając π₀.₅ i GR00T N1.6 w zadaniach ALLEX humanoid (86.8% vs ~40%).

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba i typ strumieni modalnościKrytyczna

Zestaw modalności objętych osobnymi strumieniami (np. RGB, depth, język, propriocepcja, dotyk, sygnały silników). Wpływa na pojemność reprezentacji i koszt obliczeniowy.

Tokenizer per modalnośćWysoka

Wybór enkodera/tokenizera dla każdej modalności (ViT, DINO, własny MLP dla proprio, dedykowany koder dla taktilnych).

Głębokość fuzji międzymodalnejWysoka

Liczba warstw, w których joint self-attention łączy strumienie (vs warstwy działające tylko wewnątrz strumienia). Steruje trade-offem między modalność-specyficznością a wspólnym rozumowaniem.

Horyzont predykcji akcjiŚrednia

Liczba kroków akcji generowanych w jednym przebiegu (action chunking). Wpływa na latencję inferencji i stabilność polityki.