Trening

Imitation Learning / BC

1991AktywnyAktualizacja: 5 maja 2026Opublikowany

Rodzina metod uczenia maszynowego, w której agent uczy się polityki przez naśladowanie demonstracji eksperta. Behavior Cloning (BC) to najprostsza forma: nadzorowane uczenie mapowania obserwacja→akcja.

Kluczowa innowacja

Uczenie polityki agenta bezpośrednio z demonstracji eksperta bez definiowania funkcji nagrody, co eliminuje potrzebę inżynierii nagród w robotyce.

Kategoria

Trening

Poziom abstrakcji

Pattern

Zastosowania

Trening polityk robotycznychManipulacja obiektamiNawigacja autonomicznaSterowanie ramieniem robotycznymFine-tuning modeli fundacyjnych na danych ludzkich

Jak działa

Zbierane są pary (obserwacja, akcja) z demonstracji eksperta. Model (policy network) jest trenowany do mapowania obserwacji na akcje przez minimalizację MSE lub cross-entropy. W BC model uczy się off-policy — bez interakcji ze środowiskiem podczas treningu. W bardziej zaawansowanych wariantach (DAgger) agent jest pytany eksperta w pętli, by korygować błędy dystrybucji.

Rozwiązany problem

Trudność definiowania funkcji nagrody dla złożonych zadań robotycznych; potrzeba efektywnego transferu umiejętności z demonstracji ludzkich.

Ewolucja

Oryginalny paper · 1991 · Neural Computation, 1991 · Dean A. Pomerleau

Efficient Training of Artificial Neural Networks for Autonomous Navigation

Dean A. Pomerleau

1991

ALVINN (Pomerleau) — pierwsza demonstracja Behavior Cloning do autonomicznej nawigacji

Punkt przełomowy

2011

DAgger (Ross et al.) — iteracyjna agregacja danych rozwiązuje problem distribution shift w BC

Punkt przełomowy

2022

Open-X-Embodiment — skalowanie IL na miliony demonstracji robotycznych z różnych platform

Punkt przełomowy

2025

UnifoLM-WMA-0 stosuje IL/BC jako Policy Enhancement na danych Open-X

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Trening polityk sieci neuronowych na dużych zbiorach demonstracji wymaga GPU.