Sharpa Robotics demonstruje obieranie jabłka. Model MoDE-VLA w akcji

Firma Sharpa Robotics zaprezentowała robota zdolnego do obierania jabłka przy użyciu dwóch zręcznych, przypominających ludzkie dłoni. Wykorzystano do tego nowatorską architekturę MoDE-VLA, która rozwiązuje problem masowego zbierania danych i precyzyjnego sterowania na poziomie pojedynczych palców. To sygnał, że bimanualna manipulacja obiektami o nieregularnych kształtach wychodzi poza fazę wczesnych eksperymentów.

Firma Sharpa wdrożyła system współdzielonej autonomii IMCopilot, który ułatwia proces uczenia robota poprzez delegowanie rutynowych mikroruchów do algorytmu.
Model MoDE-VLA aktywnie łączy dane wizyjne, językowe, siłowe i dotykowe, wykorzystując wyspecjalizowane podsieci neuronowe.
Skuteczność obierania jabłka wzrosła w testach laboratoryjnych z 0% do 30%, przy wskaźniku postępu wykonania na poziomie 73%.
Rozwiązanie zostanie zaprezentowane fizycznie na stoisku firmy Nvidia podczas targów GTC.

Wyzwanie koordynacji bimanualnej w robotyce

Wykonywanie codziennych, domowych czynności przez maszyny pozostaje jednym z największych wyzwań współczesnej inżynierii. Większość dzisiejszych dużych modeli typu VLA (Vision-Language-Action) osiągnęła wysoki poziom w percepcji otoczenia, ale wciąż napotyka na potężne bariery w obszarze złożonego działania fizycznego. Z tego powodu roboty humanoidalne oraz wieloosiowe ramiona przemysłowe zazwyczaj ograniczane są do relatywnie prostych zadań typu „pick-and-place”, wykorzystując standardowe chwytaki o bardzo niskiej liczbie stopni swobody.

Obieranie jabłka, zaprezentowane niedawno przez inżynierów z Sharpa Robotics, stanowi dla systemów sterowania zadanie o drastycznie innej skali trudności. Obejmuje ono zsynchronizowaną, oburęczną koordynację, w której jedna dłoń musi utrzymywać stabilny chwyt i precyzyjnie obracać owoc, podczas gdy druga płynnie prowadzi ostrze. Wymaga to nie tylko ciągłego przetwarzania obrazu przestrzennego, ale również bezbłędnej interpretacji sił i dotyku, aby zapobiec wyślizgnięciu się owocu z chwytu lub zbyt głębokiemu wbiciu noża. Jak podaje branżowy serwis Humanoids Daily w artykule The Apple Peeling Milestone, opublikowany materiał potwierdza zniwelowanie istotnej luki technologicznej w obszarze precyzyjnej manipulacji bogatej w kontakt fizyczny (contact-rich manipulation).

Od sprzętu do oprogramowania: Wąskie gardło zbierania danych

Przejście od prostych dwupalczastych szczypiec do zaawansowanych dłoni o łącznej liczbie ponad 60 stopni swobody (jak w przypadku autorskiego modelu SharpaWave) tworzy zupełnie nowy problem analityczny. Precyzyjna teleoperacja na poziomie pojedynczych palców jest dla człowieka sterującego maszyną niemal niemożliwa do długofalowego utrzymania ze względu na przytłaczające obciążenie poznawcze, co z kolei skutecznie blokuje możliwość stworzenia odpowiednio obszernych zbiorów danych do treningu modeli AI.

Aby ominąć ten logistyczny problem, zespół wdrożył zintegrowany system IMCopilot (In-hand Manipulation Copilot). Zamiast zmuszać operatora do kontrolowania każdego stawu maszyny poprzez skomplikowane rękawice w wirtualnej rzeczywistości, system opiera się na strukturze autonomii współdzielonej (shared-autonomy). Operator – wykorzystując ramy egzoszkieletu – kontroluje wyłącznie główne, ramieniowe ruchy robota SharpaNorth. Z kolei za skomplikowane operacje i rotacje obiektów bezpośrednio w dłoni odpowiadają wstępnie wyuczone „prymitywy” ruchowe. Człowiek aktywuje te umiejętności, takie jak obrót jabłka czy piłki tenisowej, za pomocą prostego wciśnięcia pedału nożnego lub odpowiedniego klawisza. Takie podejście drastycznie ułatwia płynne i skalowalne zbieranie wysokiej jakości danych, otwierając drogę do powtarzalnego treningu opartego o uczenie ze wzmocnieniem (Reinforcement Learning).

Architektura MoDE-VLA: Sieć dynamicznych ekspertów

Zgromadzone pakiety hybrydowych danych zasilają nowo zaprojektowaną architekturę Mixture-of-Dexterous-Experts VLA. Standardowe modele przewidujące działanie na bazie obrazu często stają się niestabilne, gdy dodatkowe dane siłowe i dotykowe są po prostu mechanicznie „doklejane” do głównych danych wizyjnych. Wynika to wprost z faktu, że bodźce te funkcjonują w zupełnie innej skali czasowej i mają skrajnie inne znaczenie fizyczne dla utrzymania stabilności robota.

Twórcy z Sharpa Robotics opracowali rozwiązanie dedykowane stricte bodźcom dotykowym. Cały proces sterowania opiera się na dwóch nowych fundamentach:

Sparse MoE Routing: Zamiast przepuszczać wszystkie informacje sensoryczne przez jedną monolityczną i powolną sieć, układ wywołuje wąsko wyspecjalizowanych „ekspertów” w zależności od wykrytej fazy operacji – na przykład osobna mniejsza podsieć uruchamia się w ułamku sekundy dokładnie wtedy, gdy algorytmy wykryją kontakt ostrza ze skórką owocu.
Residual Injection: Wszelkie korekty wynikające z mikroskopijnego poślizgu czy zmiany ciśnienia na obiekcie są „wstrzykiwane” w czasie rzeczywistym bezpośrednio do ruchów rąk. Odbywa się to z poszanowaniem ogólnej bazy wiedzy robota, nabytej w trakcie obszernego pre-treningu.

Przegląd modelu Mixture of Dexterous Experts VLA

Powyższe oprogramowanie funkcjonuje w zintegrowanym środowisku dłoni SharpaWave, które wykorzystują siatkę miniaturowych kamer wewnętrznych do bezbłędnego śledzenia odkształceń żelowych opuszków palców, realizując tak zwaną funkcję „czucia poprzez widzenie”.

Adaptacyjne wektory i optymalizacja zasobów obliczeniowych

Zastosowanie architektury dynamicznych ekspertów w robotyce ukazuje głębszy branżowy trend poszukiwania wysokiej optymalizacji reprezentacji danych przestrzennych. Tradycyjne modele zasilające autonomiczne roboty często opierały się na stałych wektorach (fixed-capacity representations), co w środowisku wysokiej zmienności bywało albo niewystarczające względem złożoności zadań, albo zbyt obciążające system obliczeniowy.

Dla porównania, w świecie wielkich modeli przetwarzania języka oraz klasyfikacji obrazów, przełom wyznaczyło pojęcie Matryoshka Representation Learning (MRL). Publikacja z konferencji NeurIPS zaprezentowała technologię umożliwiającą elastyczne upakowanie danych na różnych poziomach ziarnistości (coarse-to-fine), co doprowadziło do 14-krotnego zmniejszenia rozmiarów wektorów z osadzonymi danymi (embeddings) przy zachowaniu wyjściowej dokładności zadania.

Mimo że badania MRL dotyczyły klasyfikacji bazodanowej, mechanika elastycznego, asymetrycznego obciążania jednostek operacyjnych w zależności od potrzeb – bez nakładania ciągłego podatku obliczeniowego w trakcie wnioskowania – staje się fundamentem operacyjnym dla systemów takich jak MoDE-VLA. Roboty muszą dynamicznie żonglować wolniejszym, planującym modułem optycznym oraz natychmiastowym „odruchem” ekspertów dotykowych, aby przenieść ciężar obliczeniowy w krytyczny punkt zadania. Podejście to zmniejsza obciążenie systemów pokładowych robota, jednocześnie skracając opóźnienia na linii procesor-elementy wykonawcze.

Potwierdzenie sprawności z testów

Aby dowieść stabilności wdrożonego oprogramowania, inżynierowie przeprowadzili testy bazujące na czterech zróżnicowanych zadaniach charakteryzujących się bogatym kontaktem fizycznym. W każdym badaniu odnotowano drastyczny wzrost precyzji działania względem modelu referencyjnego:

Obieranie jabłka: Wzrost efektywności z poziomu zerowego (0%) do 30%.
Składanie kół zębatych: Wzrost z 40% do 60%.
Zmiana sekwencji rurek (Tube Rearranging): Wzrost z 15% do 30%.
Podłączanie wtyczki ładowarki: Wzrost z 5% do 15%.

Łączny średni wskaźnik sukcesu dla wszystkich kategorii powiększył się o 34 punkty procentowe. Co szczególnie interesujące pod kątem obierania jabłka, wprowadzony przez analityków parametr „Peel Completion Ratio” osiągnął poziom 73%. Zależność ta może wskazywać, że nawet jeśli zadanie nie dociera do perfekcyjnego sfinalizowania, maszyna jest już w stanie podtrzymać skomplikowaną sekwencję bimanualną przez bardzo długi czas trwania pętli operacyjnej. Detale techniczne modelu zaprezentowano w zbiorczym dokumencie zespołu badawczego opublikowanym na ArXiv.

Dlaczego to ważne?

Omawiane osiągnięcie firmy Sharpa można odczytywać jako decydujący dowód na to, że rynek zaawansowanej robotyki wkracza w fazę zrównywania możliwości hardware’u z systemami sterującymi. Do niedawna rozwój skomplikowanych form fizycznych rąk i nóg daleko wyprzedzał stabilność oprogramowania. Chociaż branża wyprodukowała już dłonie wyposażone w niezwykle gęste macierze czujników, dotychczasowe algorytmy VLA potykały się na etapie spójnego mapowania dziesiątek zmiennych (takich jak tarcie, nacisk i ugięcie obiektów) na ciągły ruch serwomotorów.

Rozwiązania zawarte w projekcie MoDE-VLA oraz zastosowanie pośrednika zbierającego dane (IMCopilot) dowodzą, że technologiczny mur w robotyce można obejść poprzez asymetryczną dekonstrukcję architektury sztucznej inteligencji. Wymiana nieefektywnej, całkowitej teleoperacji na model współdzielony znacząco obniża koszt konstruowania ogromnych zbiorów danych, a ujęcie sztucznej inteligencji jako pakietu mniejszych „ekspertów” skraca krytyczny czas reakcji maszyny na bodziec fizyczny.

Jest to jaskrawy dowód na to, że inżynierowie podchodzą coraz bliżej do wdrożeń zaawansowanych urządzeń w środowiskach nienormatywnych – takich jak kuchnie czy przestrzenie magazynowe – gdzie przedmioty potrafią być mokre, śliskie, wiotkie bądź całkowicie nieregularne na swojej powierzchni. Wynik 30% skuteczności w idealnym, w pełni bezbłędnym procesie obierania jabłka wciąż utrzymuje tę technologię z dala od rynku czysto konsumenckiego, lecz w wymiarze czysto eksperymentalnym stanowi to przeskoczenie potężnego i wieloletniego martwego punktu w historii dziedziny manipulacji robotycznej.

Co dalej?

System SharpaNorth wyposażony w opisywane oprogramowanie zostanie zademonstrowany przez inżynierów w realnych warunkach targowych (Stoisko 1838, Hala 3) na konferencji NVIDIA GTC.
Kolejne iteracje projektów naukowych i testów skupią się prawdopodobnie na zredukowaniu przerw w działaniu algorytmu i windowaniu odsetka pełnych, niezaburzonych sukcesów procesu obierania powyżej osiągniętych 30%.
Będziemy na bieżąco świadkami umacniania się podziału architektury w robotyce domowej – kierowania dużych modeli językowych (LLM) do planowania strategii i wysokiego poziomu logiki, ze spychaniem odruchowych, niskopoziomowych mechanizmów w ręce węższych sieci trenowanych poprzez metody ze wzmocnieniem (RL).

Źródła

Humanoids Daily – The Apple Peeling Milestone: How Sharpa's "MoDE-VLA" Unlocks Bimanual Dexterity – https://www.humanoidsdaily.com/news/the-apple-peeling-milestone-how-sharpa-s-mode-vla-unlocks-bimanual-dexterity
ArXiv – Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA – https://arxiv.org/html/2603.08122v1
Publikacja zespołu A. Kusupati et al. – Matryoshka Representation Learning – https://arxiv.org/abs/2205.13147