NVIDIA dokonała przełomu: EgoScale uczy roboty zręczności z nagrań wideo

Badacze z laboratorium GEAR firmy NVIDIA zaprezentowali EgoScale, przełomowy system zasilający maszyny „fizycznym zdrowym rozsądkiem” na podstawie 20 tysięcy godzin nagrań z ludzkiej perspektywy. Podejście to eliminuje wąskie gardło tradycyjnej robotyki, udowadniając, że analizowanie codziennych czynności człowieka bezpośrednio przekłada się na mistrzowską precyzję ucieleśnionej sztucznej inteligencji.

Najważniejsze w skrócie

Przetrenowano ujednolicony model wizyjno-językowo-akcyjny (VLA) na ponad 20 854 godzinach egocentrycznych wideo z codziennymi ludzkimi czynnościami.
Skuteczność maszyn w skomplikowanych zadaniach manualnych wzrosła średnio o 54% względem wariantów bazowych.
Zidentyfikowano stabilne prawo skalowania dla danych motorycznych – skuteczność robota rośnie logarytmiczno-liniowo wraz z powiększaniem bazy nagrań.
Architektura jest uniwersalna: wyuczone polityki ruchu sprawdziły się nie tylko na 22-stopniowej dłoni robota, ale z powodzeniem przetransferowano je na model Unitree G1.

Koniec ery żmudnej teleoperacji

Dotychczasowy rozwój zaawansowanej robotyki borykał się z problemem tzw. luki danych (ang. robotics data gap). Aby maszyna nauczyła się układać obiekty o nieregularnych kształtach, inżynierowie musieli generować dane treningowe poprzez czasochłonną teleoperację – fizyczne sterowanie każdym ruchem robota za pomocą specjalistycznych kontrolerów. Było to podejście drogie i nieskalowalne.

Rozwiązanie zaprezentowane przez zespół, któremu przewodzi m.in. Jim Fan, dokonuje radykalnego zwrotu. Badacze wyszli z założenia, że człowiek jest najbardziej skalowalnym ucieleśnieniem na naszej planecie. Zamiast tworzyć izolowane symulacje, algorytm wykorzystał gotowe zasoby – codzienne zachowania zarejestrowane za pomocą kamer noszonych na głowie. Takie podejście przypomina rewolucję, jaką w świecie analizy tekstu wywołały duże modele językowe (LLM), które również zbudowano na potężnych, ogólnodostępnych zbiorach danych.

Trzy etapy do zręczności absolutnej

Architektura opiera się na prostym, ale niezwykle skutecznym, trzyetapowym procesie, który pozwala przełożyć ludzki ruch na przestrzeń akcji robota.

Pre-training na danych ludzkich: System analizuje masowy, liczący ponad 20 tysięcy godzin zbiór wideo, który obejmuje 9000 unikalnych scen i 6000 rodzajów zadań. Kluczowe było tutaj precyzyjne namierzenie 21 punktów szkieletowych ludzkiej dłoni i nadgarstka, a następnie przetłumaczenie (re-targetowanie) ich na 22-stopniową (22-DoF) przestrzeń stawów robota.
Mid-training zrównujący: To najistotniejszy etap łączący dwa światy. Wykorzystując zaledwie 50 godzin danych z perspektywy człowieka i zestawienie ich z 4 godzinami surowych danych sensorycznych maszyny (tzw. play data), model potrafi zakotwiczyć wyuczone ludzkie reprezentacje w wykonywalnych poleceniach sprzętowych.
Post-training i zadania precyzyjne: Ostatni krok polega na dotrenowaniu polityki ruchu pod kątem wysoce specyficznych, zręcznościowych zadań. Maszyny z sukcesem opanowały układanie ubrań (rolowanie koszuli koordynując obie ręce), sortowanie kart bankomatowych, odkręcanie butelek czy niezwykle precyzyjne posługiwanie się strzykawką do transferu płynów.

Prawo skalowania i generalizacja

Najbardziej wartościowym odkryciem badawczym opisanym w pracy jest udowodnienie zjawiska deterministycznego skalowania. Zespół odkrył niemal idealne logarytmiczno-liniowe prawo skalowania (R2=0.9983). Oznacza to, że funkcja straty na zbiorze walidacyjnym (zdolność przewidywania ruchów) spada wprost proporcjonalnie do objętości danych uczących, co z kolei jednoznacznie koreluje z wydajnością fizycznej maszyny.

Efektem ubocznym tej skali jest zjawisko adaptacji one-shot. Sztuczna inteligencja zinternalizowała uniwersalne „prymitywy ruchowe”, dzięki czemu robot, który wcześniej uczył się układać ręcznik, potrafił poprawnie złożyć koszulę mając do dyspozycji zaledwie jedną demonstrację teleoperowaną. Co więcej, system zadziałał także po przeniesieniu na zupełnie inne ucieleśnienie – robota Unitree dysponującego zaledwie 7 stopniami swobody w trójpalczastych dłoniach, dostarczając tam 30% bezwzględnej poprawy wyników.

Dlaczego to ważne?

Projekt ten stanowi kamień milowy w dążeniu do stworzenia prawdziwego Physical AI. Przez lata branża wierzyła, że precyzyjna robotyka wymaga sztywno zaprogramowanych kinematyk lub idealnie odwzorowanych środowisk wirtualnych. Nvidia udowodniła tezę zgodną z tzw. "Gorzką Lekcją" (ang. Bitter Lesson) sztucznej inteligencji: żadne, nawet najbardziej wyrafinowane ręczne algorytmy nie wygrają z brutalną siłą ogólnych reprezentacji wyuczonych na gigantycznych, odpowiednio ustrukturyzowanych zbiorach danych.

Wydobycie tej „ciemnej materii” interakcji międzyludzkich sprawia, że jesteśmy o krok bliżej do maszyn, które przejdą Fizyczny Test Turinga. To całkowicie transformuje rentowność robotyki humanoidalnej – zamiast tworzyć setki dedykowanych stanowisk treningowych dla każdej gałęzi przemysłu, inżynierowie mogą bazować na uniwersalnym modelu podstawowym. To otwiera bramy do fabryk, magazynów, a w niedalekiej przyszłości również do naszych domów, dla robotów zdolnych do pracy z nieustrukturyzowanym, plastycznym i zmiennym środowiskiem (takim jak tkaniny czy delikatne płyny).

Co dalej?

Z perspektywy technologicznej i biznesowej rozwój tej gałęzi wejdzie teraz w nową fazę, dyktowaną przez konieczność dostarczenia jeszcze większej ilości nagrań.

Masowe pozyskiwanie danych egocentrycznych: Możemy spodziewać się intensyfikacji projektów mających na celu rejestrowanie specjalistycznych czynności ludzkich (np. od kucharzy czy pracowników logistycznych) za pomocą okularów z kamerami, by karmić modele kolejnymi setkami tysięcy godzin wideo.
Wielokrokowe planowanie: Zgodnie z przewidywaniami badaczy, skalowanie pojemności modeli zaowocuje skokowym wzrostem zdolności do planowania w długim horyzoncie czasowym (ang. long-horizon planning) i generalizacji kompozycyjnej.
Agnostycyzm sprzętowy jako standard rynkowy: Modele fundamentowe dla robotyki będą sprzedawane niezależnie od samych maszyn. Producent oprogramowania dostarczy "mózg", który bez problemu zintegruje się z tańszymi, produkowanymi seryjnie robotami operującymi na różnych systemach przegubowych i z mniejszą liczbą palców.

Źródło: Materiały analityczne i badawcze zespołu badawczego (Ruijie Zheng, Dantong Niu i in.), NVIDIA GEAR Lab: EgoScale: Scaling Human Video to Unlock Dexterous Robot Intelligence. Oraz powiązane publikacje prasowe The Human Scale: NVIDIA's EgoScale Unlocks High-Dexterity Robotics via 20,000 Hours of Human Video.

NVIDIA dokonała przełomu: EgoScale uczy roboty zręczności z nagrań wideo

Najważniejsze w skrócie

Koniec ery żmudnej teleoperacji

Trzy etapy do zręczności absolutnej

Prawo skalowania i generalizacja

Dlaczego to ważne?

Co dalej?

Czytaj następny

Roboty stracą na wadze? Mięśnie HARP kluczem do nowej generacji maszyn

Powiązane artykuły

Generalist AI przedstawia GEN-1: Czy to koniec ery programowanych robotów?

Europejski wyścig humanoidów: Czy roboty uratują przemysł UE?

MUON+: Nowa metoda optymalizacji przyspiesza trenowanie potężnych modeli AI

Japonia stawia na „Physical AI”: Powstaną globalne centra badawcze robotyki nowej generacji