MSAT
Jak działa
Każda modalność wejściowa jest najpierw tokenizowana przez własny enkoder/embedding (np. ViT dla obrazu, tokenizer LLM dla języka, MLP dla propriocepcji, dedykowany koder dla tachilnych). Otrzymane sekwencje tokenów tworzą równoległe strumienie, każdy z własną pozycją i identyfikatorem modalności. Strumienie są konkatenowane do jednej długiej sekwencji wejściowej transformera, gdzie warstwy joint self-attention łączą tokeny ze wszystkich modalności w pojedynczych operacjach uwagi. Wyjściem są tokeny akcji (sekwencje sterowań robota), generowane autoregresywnie lub przez wyspecjalizowaną głowicę. RLDX-1 łączy MSAT z syntezą danych dla rzadkich scenariuszy manipulacji, learning procedures dostrojonymi do human-like manipulation oraz optymalizacjami inferencji dla deploymentu w czasie rzeczywistym.
Rozwiązany problem
Klasyczne VLA pretrenowane na pretreningowych VLM-ach dobrze radzą sobie z rozumieniem sceny i instrukcji, ale słabo z zadaniami wymagającymi wąskich zdolności funkcjonalnych — motion awareness, długoterminową pamięcią, physical sensing. Próby dodawania nowych modalności przez naiwną konkatenację tokenów psują wcześniejsze reprezentacje wizyjno-językowe lub wymagają kruchych potoków per-modalność. MSAT rozwiązuje ten problem strukturalnie: każda modalność ma osobny strumień embeddingu, więc nie psuje innych, a cross-modal joint self-attention zapewnia spójne wspólne rozumowanie.
Komponenty
Implementacja
Strumienie o silnym sygnale uczącym (wizja, język) mogą dominować uwagę w joint attention i marginalizować strumienie z mniejszą gęstością informacji (propriocepcja, dotyk). Wymaga starannego balansowania straty per modalność lub wag attention.
Każda nowa modalność zwiększa liczbę tokenów wejściowych transformera. Przy 5+ strumieniach sekwencja staje się zbyt długa dla naiwnej O(n²) uwagi — wymaga sparse attention lub agresywnej tokenizacji.
Tachiilne i siłowe sygnały są często mocno zaszumione i nieskalibrowane między epizodami. Bez filtracji wstępnej lub specyficznej normalizacji per-strumień, joint attention uczy się szumu.
Wielomodalna sekwencja zwiększa koszt forward pass. Aby zachować częstotliwość sterowania humanoidów, konieczne są optymalizacje inferencji (KV-cache, action chunking, kompresja tokenów).
Ewolucja
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Zestaw modalności objętych osobnymi strumieniami (np. RGB, depth, język, propriocepcja, dotyk, sygnały silników). Wpływa na pojemność reprezentacji i koszt obliczeniowy.
Wybór enkodera/tokenizera dla każdej modalności (ViT, DINO, własny MLP dla proprio, dedykowany koder dla taktilnych).
Liczba warstw, w których joint self-attention łączy strumienie (vs warstwy działające tylko wewnątrz strumienia). Steruje trade-offem między modalność-specyficznością a wspólnym rozumowaniem.
Liczba kroków akcji generowanych w jednym przebiegu (action chunking). Wpływa na latencję inferencji i stabilność polityki.