Robocikowo>ROBOCIKOWO
Wnioskowanie

ICL

2020AktywnyAktualizacja: 6 maja 2026Opublikowany
Zdolność LLM do uczenia się nowego zadania z kilku przykładów w prompcie, bez aktualizacji wag.
Kluczowa innowacja
Wykazanie, że duży model językowy potrafi nauczyć się nowego zadania w czasie inferencji — wyłącznie z kilku przykładów (demonstracji) podanych w prompcie — bez aktualizacji wag i bez fine-tuningu.
Kategoria
Wnioskowanie
Poziom abstrakcji
Pattern
Poziom operacji
Inferencja
Zastosowania
Klasyfikacja tekstu z kilkoma przykładami (sentiment, intent)Tłumaczenie maszynowe par językowych bez fine-tuninguStrukturyzacja danych: ekstrakcja JSON z tekstu z 2–3 przykładamiQuestion answering domenowy z few-shot examplesStyle transfer i parafrazowanie z demonstracjamiPrompt engineering w aplikacjach LLM (LangChain, DSPy)Foundation models do robotyki — uczenie polityki z demonstracji w prompcie (RT-2, VLA)Personalizacja chatbotów bez zmiany wag modelu

Jak działa

1. Konstrukcja promptu: opcjonalna instrukcja zadania w języku naturalnym + k par demonstracyjnych (input, output) + nowy input zapytania. Każda demonstracja jest oddzielona separatorem (np. nowa linia, '###', tag XML). 2. Tokenizacja i forward pass: cały prompt jest podawany jako kontekst do dekodera transformera. Mechanizm uwagi (self-attention) pozwala każdemu tokenowi „widzieć" wszystkie poprzednie tokeny, w tym demonstracje. 3. Indukcja wzorca: warstwy uwagi (w szczególności induction heads, Olsson i in. 2022) wykrywają wzorzec [token A → token B] w demonstracjach i propagują go na nowy input. Mechanizm ten jest analogiczny do implicit gradient descent w przestrzeni aktywacji. 4. Generacja outputu: model generuje tokeny odpowiedzi autoregresywnie, kontynuując wzorzec z demonstracji. 5. Bez aktualizacji wag: w odróżnieniu od fine-tuningu, gradienty nie są obliczane ani wsteczne propagowane. Cała „nauka" odbywa się wyłącznie w aktywacjach jednego forward pass.

Rozwiązany problem

Tradycyjne uczenie nadzorowane wymaga zbioru treningowego dla każdego nowego zadania, fine-tuningu modelu (osobnej kopii wag) oraz infrastruktury treningowej. To uniemożliwia szybką adaptację do nowych zadań i blokuje skalowanie do tysięcy domen. ICL eliminuje ten problem: pojedynczy zamrożony LLM wykonuje dowolne zadanie zdefiniowane w prompcie, bez treningu i bez kopiowania wag.

Komponenty

Instrukcja zadaniaOkreślenie zadania dla modelu

Opcjonalny opis zadania w języku naturalnym, poprzedzający demonstracje. W modelach instruction-tuned (GPT-3.5+, Claude) sama instrukcja często wystarcza (zero-shot ICL).

Oficjalna

Demonstracje (shots)Warunkowanie modelu na wzorzec zadania

Pary (input, output) ilustrujące oczekiwane zachowanie modelu. Liczba demonstracji k definiuje wariant: zero-shot (k=0), one-shot (k=1), few-shot (k=2–32). Demonstracje muszą mieścić się w oknie kontekstowym modelu.

Zero-shotBrak demonstracji, tylko instrukcja w języku naturalnym.
One-shotJedna demonstracja przed zapytaniem.
Few-shotTypowo 4–8 demonstracji; standardowy reżim z papera GPT-3.
Many-shotSetki/tysiące demonstracji w długim oknie kontekstowym (Agarwal i in. 2024, Google DeepMind).
Nowy input zapytaniaPunkt zastosowania nauczonego wzorca

Faktyczny input, dla którego model ma wygenerować odpowiedź. Musi mieć ten sam format co inputy w demonstracjach, aby model rozpoznał wzorzec.

Induction headsMechanistyczny substrat uczenia w kontekście

Specyficzne głowice uwagi w warstwach 2+ transformera, które uczą się rozpoznawać wzorzec [A][B] ... [A] → [B] podczas pretrainingu. Olsson i in. (2022, Anthropic) wykazali, że induction heads są mechanistycznym substratem ICL — ich pojawienie się koreluje z fazą emergencji ICL podczas treningu.

Implementacja

Pułapki implementacyjne
Wrażliwość na kolejność demonstracjiWysoka

Lu i in. (2022) pokazali, że ten sam zestaw demonstracji w różnej kolejności daje wyniki różniące się o 20–30 punktów procentowych accuracy. Część permutacji daje wyniki gorsze niż random baseline.

Rozwiązanie:Stosuj uśrednianie wyników po kilku permutacjach lub heurystyki sortowania (od najmniej do najbardziej podobnych do query).
Recency bias — model preferuje ostatnie demonstracjeŚrednia

Modele wykazują tendencję do dopasowywania się głównie do końcowych demonstracji w prompcie, ignorując informacje z wcześniejszych. Szczególnie problematyczne w many-shot ICL.

Rozwiązanie:Umieszczaj kluczowe demonstracje na końcu listy; dla zadań klasyfikacyjnych balansuj kolejność etykiet.
Majority label biasWysoka

Jeśli demonstracje są niezbalansowane (np. 6/8 ma etykietę „pozytywny"), model będzie systematycznie predyktował dominującą etykietę dla nowych zapytań.

Rozwiązanie:Balansuj etykiety w demonstracjach (np. po 4 z każdej klasy). Stosuj kalibrację wyjść (Zhao i in. 2021).
Format mismatch między demonstracjami a zapytaniemŚrednia

Subtelne różnice w formacie (np. spacja przed odpowiedzią, kropka na końcu inputu) między demonstracjami a zapytaniem mogą drastycznie obniżyć jakość ICL.

Rozwiązanie:Normalizuj format programowo. Zawsze testuj prompt z dokładnie tym samym separatorem dla demonstracji i query.
Wyciek danych testowych do demonstracjiWysoka

Łatwo przypadkowo umieścić w demonstracjach przykłady z testowego splitu. Skutkuje to zawyżonymi wynikami benchmarków.

Rozwiązanie:Strict separation puli demonstracji od test setu. Audytuj wszystkie demonstracje przed ewaluacją.

Ewolucja

Oryginalny paper · 2020 · NeurIPS 2020 (Best Paper Award) · Tom B. Brown
Language Models are Few-Shot Learners
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei
2019
GPT-2 — pierwsze obserwacje zero-shot transferu (Radford i in.)

Radford i in. wykazują, że GPT-2 (1.5B parametrów) potrafi wykonywać zadania NLP bez fine-tuningu, jeśli odpowiednio sformułuje się prompt. Prekursor pełnego ICL.

2020
GPT-3 i sformalizowanie few-shot ICL (Brown i in.)
Punkt przełomowy

Brown i in. wprowadzają systematyczną terminologię (zero-/one-/few-shot) i wykazują, że GPT-3 (175B) osiąga konkurencyjne wyniki względem fine-tunowanych modeli na dziesiątkach benchmarków NLP, wyłącznie przez ICL.

2022
Bayesian inference framework dla ICL (Xie i in.)

Xie i in. proponują formalną interpretację ICL jako bayesowskiego wnioskowania o utajonym koncepcie zadania, wyjaśniającą, dlaczego ICL działa pomimo braku gradientów.

2022
Induction heads jako mechanistyczny substrat ICL (Olsson i in., Anthropic)
Punkt przełomowy

Anthropic identyfikuje induction heads — głowice uwagi formujące się w fazie pretrainingu, których pojawienie się koreluje z nagłym wzrostem zdolności ICL. Pierwszy mechanistyczny dowód, jak ICL emerguje w transformerze.

2022
Rola etykiet w ICL kwestionowana (Min i in.)

Min i in. wykazują, że losowe zastąpienie etykiet w demonstracjach minimalnie obniża jakość ICL — sugerując, że model uczy się formatu i przestrzeni etykiet, a nie samego mapowania input→output.

2023
ICL jako implicit gradient descent (von Oswald i in.)

von Oswald i in. wykazują formalnie i empirycznie, że transformer w trybie ICL wykonuje krok gradient descent w przestrzeni aktywacji uwagi. Daje to teoretyczne podstawy mechanizmowi.

2024
Many-shot ICL — setki/tysiące demonstracji (Agarwal i in., Google DeepMind)
Punkt przełomowy

Wraz z modelami obsługującymi 1M+ tokenów (Gemini 1.5, Claude 3), DeepMind pokazuje, że many-shot ICL (np. 1000+ demonstracji) potrafi przewyższyć fine-tuning na wielu zadaniach.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba demonstracji (k)Krytyczna

Liczba par (input, output) podanych w prompcie. Wpływa zarówno na jakość, jak i koszt inferencji (długość kontekstu).

0Zero-shot — tylko instrukcja, bez przykładów.
4–8Standardowy zakres few-shot z papera GPT-3.
32Górna granica używana w benchmarkach Brown i in. (2020).
100–1000+Many-shot ICL w długich kontekstach (Gemini 1.5 Pro, Claude 3).
Kolejność demonstracjiWysoka

Kolejność, w jakiej demonstracje pojawiają się w prompcie. Empirycznie jakość ICL jest silnie zależna od permutacji (Lu i in. 2022).

randomLosowa kolejność — duża wariancja wyniku.
similarity-rankedDemonstracje uporządkowane wg podobieństwa do zapytania.
Strategia wyboru demonstracjiWysoka

Sposób wybierania demonstracji z puli kandydatów. Static (stała pula) vs. dynamic (retrieval-based, np. KATE — k-nearest demonstrations).

staticTe same demonstracje dla wszystkich zapytań.
kNN retrieval (KATE)Demonstracje najbliższe semantycznie do zapytania (Liu i in. 2022).
Format demonstracjiŚrednia

Konwencja oddzielania pól input/output (np. 'Q:/A:', '###', tagi XML). Wpływa na jakość rozpoznawania wzorca przez model.

'Q: ... A: ...'Klasyczny format z papera GPT-3.
XML tags ('<input>...</input>')Preferowany dla Claude i strukturalnych outputów.

Złożoność obliczeniowa

Złożoność czasowa: O((k·L_demo + L_query)² · d). Złożoność przestrzenna: O(k·L_demo + L_query).

Wąskie gardło obliczeniowe

Kwadratowe self-attention nad demonstracjami

Self-attention skaluje się jak O(N²) względem długości promptu. Z k demonstracjami i długimi inputami koszt rośnie szybko, szczególnie w many-shot ICL.

Zależy od
Liczba demonstracji kDługość pojedynczej demonstracji

Paradygmat wykonania

Tryb główny
dense

ICL to technika promptowania stosowana do standardowego dense Transformera w trybie inferencji. Wszystkie parametry są aktywne, brak warunkowego routingu.

Wzorzec aktywacji
all_paths_active
Mechanizm routingu

Równoległość

Poziom równoległości
sequential

Prefill demonstracji może być w pełni równoległy (jeden forward pass nad całym promptem). Generacja odpowiedzi jest sekwencyjna jak w każdym dekoderze transformera.

Zakres
inference
Ograniczenia
!Tokeny odpowiedzi są generowane sekwencyjnie, każdy zależy od wszystkich poprzednich.

Wymagania sprzętowe

Podstawowe

ICL jest stosowane do standardowego LLM, który najefektywniej działa na GPU z tensor cores do mnożeń macierzowych w warstwach uwagi i feed-forward.

Dobry fit

TPU są szeroko stosowane do inferencji LLM. Brak specjalnych wymagań sprzętowych dla ICL ponad bazowy model.