Współczesna pipeline manipulacji zręcznościowej składa się z kilku warstw. (1) Percepcja: kamery RGB-D, depth sensors, czujniki dotykowe na opuszkach palców (np. GelSight, DIGIT) dostarczają obserwacji o pozycji i kontakcie. (2) Reprezentacja stanu: model VLA lub osobny encoder (CNN, ViT, point cloud network) zamienia surowe sensory na zwięzły wektor stanu. (3) Polityka: sieć neuronowa (MLP, transformer, diffusion policy) generuje na każdym kroku wektor akcji — typowo joint targets dla wszystkich stopni swobody dłoni. (4) Trening: imitation learning z teleoperowanych demonstracji, RL w symulacji (Isaac Gym, MuJoCo) z domain randomization dla sim-to-real, lub hybryda IL+RL (residual policy). (5) Wykonanie: kontroler niskiego poziomu (joint impedance, operational-space control) przekształca akcje na momenty w napędach z częstotliwością 100–1000 Hz.
Klasyczne chwytaki dwupalcowe nie radzą sobie z obiektami o złożonych kształtach, manipulacją wymagającą zmiany pozycji w dłoni, ani delikatnymi operacjami z kontrolą siły. Dexterous Manipulation rozwiązuje problem ogólnej, adaptacyjnej manipulacji obiektami w nieuporządkowanych środowiskach — koniecznej dla humanoidów, robotów domowych i zaawansowanej automatyzacji przemysłowej.
Mechaniczna dłoń o wielu stopniach swobody (Shadow Hand: 24 DoF, Allegro: 16, Inspire: 12, robotyczne dłonie humanoidów Tesla/Figure: 11–17). Stanowi fizyczny interfejs między polityką a światem.
Oficjalna
Czujniki na opuszkach palców (GelSight, DIGIT, ReSkin, czujniki piezorezystywne) mierzą siłę kontaktu, ślizg i lokalną geometrię powierzchni. Krytyczne dla zadań wymagających kontroli siły.
Oficjalna
Sieć neuronowa odwzorowująca obserwacje na akcje. Współczesne warianty: MLP/transformer dla zadań RL, diffusion policy dla imitation learning, model VLA dla zadań wymagających rozumowania w języku naturalnym.
Oficjalna
Mechanizm pozwalający politykom wytrenowanym w symulacji działać na fizycznym robocie. Najczęściej domain randomization (losowanie tarcia, mas, opóźnień), domain adaptation, residual policy lub fine-tuning na małej liczbie real-world demonstracji.
Oficjalna
Polityki świetnie działające w symulacji potrafią całkowicie zawodzić na fizycznym robocie z powodu różnic w tarciu, opóźnieniach napędów, szumach sensorów i dynamice kontaktów.
Polityka znajduje niespodziewane sposoby maksymalizacji nagrody (np. obracanie kostki za pomocą wibracji palców zamiast koordynowanego chwytu).
Większość symulatorów nie modeluje czujników dotykowych z wystarczającą wiernością — uniemożliwia to czysto symulowane uczenie zadań wymagających kontroli siły.
Prace Masona, Salisburego i Bicchiego nad chwytami z domknięciem kształtowym i siłowym, kinematyką dłoni i form/force closure.
Pierwsze komercyjne 24-DoF antropomorficzne efektory wieloprstne (Shadow Robot Company) — standard de facto dla badań nad manipulacją zręcznościową.
Ken Goldberg i zespół pokazali, że deep learning na syntetycznym datasecie chwytów można skutecznie transferować na fizyczny robot — fundament dla nowoczesnego uczenia chwytów.
Polityka neuronowa wytrenowana w masowej symulacji z domain randomization rozwiązała kostkę Rubika dłonią Shadow Hand — pierwszy spektakularny sukces RL w dexterous manipulation.
NVIDIA udostępniła GPU-natywną symulację z tysiącami równoległych środowisk; szkolenie polityk dexterous manipulation skróciło się z dni do godzin.
Zespoły ze Stanforda i Berkeley pokazały, że nisko-kosztowe systemy teleoperacji (ALOHA, DexCap) zbierające demonstracje pozwalają trenować skuteczne polityki imitation learning bez RL — alternatywna ścieżka do RL+sim-to-real.
Vision-Language-Action models z miliardami parametrów uczone na ogromnych korpusach demonstracji robotycznych zaczęły dominować w manipulacji zręcznościowej, integrując rozumienie języka naturalnego z generowaniem polityki.
Liczba sterowanych przegubów efektora. Wpływa zarówno na wyrazistość manipulacji, jak i na trudność uczenia (większa wymiarowość przestrzeni akcji).
Szybkość pętli sterowania niskopoziomowego. Wyższa częstotliwość pozwala reagować na dynamikę kontaktów; niższa redukuje koszt obliczeniowy polityki.
Jakie sensory zasilają politykę: tylko proprioceptive, +RGB, +RGB-D, +tactile. Każda dodatkowa modalność zwiększa skuteczność, ale komplikuje trening.
Polityka warunkuje akcje na obserwacjach wzrokowych, dotykowych i propriocepcji — różne sekwencje akcji aktywują się w zależności od fazy zadania (chwyt, transport, manipulacja in-hand, zwolnienie).
Trening RL w symulacji jest masywnie równoległy (tysiące środowisk Isaac Gym na jednym GPU). Inferencja na fizycznym robocie pozostaje sekwencyjna ze względu na zamkniętą pętlę kontaktów na 100–1000 Hz.
Trening polityk RL w symulacji wymaga masowej równoległości GPU (Isaac Gym, MuJoCo MJX). Inferencja modeli VLA też najlepiej działa na GPU.
Niskopoziomowe pętle kontroli (joint impedance, MPC) działają zwykle na CPU z hard real-time, równolegle z polityką wysokopoziomową na GPU.