Chińskie ShengShu Technology ogłosiło 29 kwietnia 2026 roku premierę Motubrain — modelu klasy World Action Model (WAM) zbudowanego na architekturze Mixture-of-Transformers. System ma działać jako niezależny od sprzętu „mózg" dla zróżnicowanych platform robotycznych: przemysłowych, komercyjnych i domowych. Jego cechą wyróżniającą jest jednoczesne uczenie percepcji, prognozowania świata i sterowania akcją w jednym modelu — bez podziału na oddzielne podsystemy. Motubrain jest wspierany przez rundę Series B wartości 293 mln dolarów (2 mld juanów), przeprowadzoną przez Alibaba Cloud z udziałem Baidu Ventures i Luminous Ventures.
Poza modelem VLA: architektura Mixture-of-Transformers
Branżę zdominowały w ostatnich latach modele Vision-Language-Action (VLA), łączące możliwości językowe z wyjściami motorycznymi. ShengShu odchodzi od tego wzorca na rzecz architektury Mixture-of-Transformers (MoT), w której trzy strumienie danych — wideo, model świata i sterowanie akcją — są przetwarzane wspólnie. Model korzysta z fundamentów generatywnych platformy wideo Vidu, co pozwala mu „wyobrażać" przyszłe stany środowiska i wyznaczać odwrotną dynamikę potrzebną do ich osiągnięcia.
Wyniki na benchmarkach
ShengShu przedstawiło wyniki na dwóch niezależnych benchmarkach: WorldArena — globalny ranking oceniający fizyczne rozumowanie i prognozowanie — Motubrain uzyskał 63,77 EWM Score, plasując się w pierwszej trójce. RoboTwin 2.0 — 50 losowo rozmieszczonych zadań manipulacji: Motubrain osiągnął 96,0% skuteczności, jako jedyny model przekraczający 95% w warunkach losowych (zmienione oświetlenie i pozycje obiektów).
W testach skalowania zadaniowego skuteczność Motubrain rosła wraz z liczbą zadań, osiągając 92% przy 50 zadaniach i przewyższając Pi-0.5 o ok. 37%. Model ShengShu deklaruje również 13,55-krotną poprawę efektywności danych względem tradycyjnych metod.
Niezależność sprzętowa i wdrożenia
Motubrain jest zaprojektowany jako warstwa inteligencji niezależna od platformy. Model nie wymaga pełnego przekształcenia przy zmianie sprzętu — przenosi umiejętności między różnymi typami robotów. W obecnym stanie jest już stosowany w programach szkoleniowych firm Astribot, SimpleAI i Anyverse Dynamics.
W testach realnych roboty wyposażone w Motubrain wykazały emergentne zachowania „retry": gdy robot próbujący nabrać zawartość łyżką wychodzi z pustymi rękami, samoczynnie powtarza próbę — bez jawnego treningu na takich przypadkach niepowodzenia.
Dlaczego to ważne?
Motubrain reprezentuje inną filozofię skalowania robotyki niż dominujące podejście VLA. Zamiast dodawać głowicę akcji do modelu językowego, ShengShu buduje model, który traktuje ruch i percepcję jako jednolity problem generatywny. Wyniki benchmarkowe sugerują, że to podejście lepiej radzi sobie z heterogenicznością zadań — co jest kluczowym wymaganiem dla robotów przemysłowych obsługujących setki scenariuszy jednocześnie. Otwarte pytanie: czy 13,55-krotna poprawa efektywności danych przełoży się na porównywalny skok w warunkach pełnego wdrożenia produkcyjnego?
Co dalej?
ShengShu zapowiedziało rozszerzenie partnerów OEM i wdrożenia w nowych segmentach robotyki. Kluczowym testem będzie skalowanie od środowisk laboratoryjnych do pełnych wdrożeń przemysłowych z wymaganiami niezawodności 24/7. Środki z rundy Series B zostaną przeznaczone na dalszy rozwój modelu i budowę infrastruktury danych.





