Trening
Imitation Learning / BC
1991AktywnyAktualizacja: 5 maja 2026Opublikowany
Rodzina metod uczenia maszynowego, w której agent uczy się polityki przez naśladowanie demonstracji eksperta. Behavior Cloning (BC) to najprostsza forma: nadzorowane uczenie mapowania obserwacja→akcja.
Kluczowa
innowacja
Uczenie polityki agenta bezpośrednio z demonstracji eksperta bez definiowania funkcji nagrody, co eliminuje potrzebę inżynierii nagród w robotyce.
Kategoria
Trening
Poziom abstrakcji
Pattern
Zastosowania
Trening polityk robotycznychManipulacja obiektamiNawigacja autonomicznaSterowanie ramieniem robotycznymFine-tuning modeli fundacyjnych na danych ludzkich
Jak działa
Zbierane są pary (obserwacja, akcja) z demonstracji eksperta. Model (policy network) jest trenowany do mapowania obserwacji na akcje przez minimalizację MSE lub cross-entropy. W BC model uczy się off-policy — bez interakcji ze środowiskiem podczas treningu. W bardziej zaawansowanych wariantach (DAgger) agent jest pytany eksperta w pętli, by korygować błędy dystrybucji.
Rozwiązany problem
Trudność definiowania funkcji nagrody dla złożonych zadań robotycznych; potrzeba efektywnego transferu umiejętności z demonstracji ludzkich.
Ewolucja
Oryginalny paper · 1991 · Neural Computation, 1991 · Dean A. Pomerleau
Efficient Training of Artificial Neural Networks for Autonomous Navigation
Dean A. Pomerleau
1991
ALVINN (Pomerleau) — pierwsza demonstracja Behavior Cloning do autonomicznej nawigacji
Punkt przełomowy2011
DAgger (Ross et al.) — iteracyjna agregacja danych rozwiązuje problem distribution shift w BC
Punkt przełomowy2022
Open-X-Embodiment — skalowanie IL na miliony demonstracji robotycznych z różnych platform
Punkt przełomowy2025
UnifoLM-WMA-0 stosuje IL/BC jako Policy Enhancement na danych Open-X
Szczegóły techniczne
Wymagania sprzętowe
Podstawowe
Trening polityk sieci neuronowych na dużych zbiorach demonstracji wymaga GPU.