Wnioskowanie

ICL

2020AktywnyAktualizacja: 6 maja 2026Opublikowany

Zdolność LLM do uczenia się nowego zadania z kilku przykładów w prompcie, bez aktualizacji wag.

Kluczowa innowacja

Wykazanie, że duży model językowy potrafi nauczyć się nowego zadania w czasie inferencji — wyłącznie z kilku przykładów (demonstracji) podanych w prompcie — bez aktualizacji wag i bez fine-tuningu.

Kategoria

Wnioskowanie

Poziom abstrakcji

Pattern

Poziom operacji

Inferencja

Zastosowania

Klasyfikacja tekstu z kilkoma przykładami (sentiment, intent)Tłumaczenie maszynowe par językowych bez fine-tuninguStrukturyzacja danych: ekstrakcja JSON z tekstu z 2–3 przykładamiQuestion answering domenowy z few-shot examplesStyle transfer i parafrazowanie z demonstracjamiPrompt engineering w aplikacjach LLM (LangChain, DSPy)Foundation models do robotyki — uczenie polityki z demonstracji w prompcie (RT-2, VLA)Personalizacja chatbotów bez zmiany wag modelu

Jak działa

1. Konstrukcja promptu: opcjonalna instrukcja zadania w języku naturalnym + k par demonstracyjnych (input, output) + nowy input zapytania. Każda demonstracja jest oddzielona separatorem (np. nowa linia, '###', tag XML). 2. Tokenizacja i forward pass: cały prompt jest podawany jako kontekst do dekodera transformera. Mechanizm uwagi (self-attention) pozwala każdemu tokenowi „widzieć" wszystkie poprzednie tokeny, w tym demonstracje. 3. Indukcja wzorca: warstwy uwagi (w szczególności induction heads, Olsson i in. 2022) wykrywają wzorzec [token A → token B] w demonstracjach i propagują go na nowy input. Mechanizm ten jest analogiczny do implicit gradient descent w przestrzeni aktywacji. 4. Generacja outputu: model generuje tokeny odpowiedzi autoregresywnie, kontynuując wzorzec z demonstracji. 5. Bez aktualizacji wag: w odróżnieniu od fine-tuningu, gradienty nie są obliczane ani wsteczne propagowane. Cała „nauka" odbywa się wyłącznie w aktywacjach jednego forward pass.

Rozwiązany problem

Tradycyjne uczenie nadzorowane wymaga zbioru treningowego dla każdego nowego zadania, fine-tuningu modelu (osobnej kopii wag) oraz infrastruktury treningowej. To uniemożliwia szybką adaptację do nowych zadań i blokuje skalowanie do tysięcy domen. ICL eliminuje ten problem: pojedynczy zamrożony LLM wykonuje dowolne zadanie zdefiniowane w prompcie, bez treningu i bez kopiowania wag.

Komponenty

Instrukcja zadaniaOkreślenie zadania dla modelu

Opcjonalny opis zadania w języku naturalnym, poprzedzający demonstracje. W modelach instruction-tuned (GPT-3.5+, Claude) sama instrukcja często wystarcza (zero-shot ICL).

Oficjalna

Demonstracje (shots)Warunkowanie modelu na wzorzec zadania

Pary (input, output) ilustrujące oczekiwane zachowanie modelu. Liczba demonstracji k definiuje wariant: zero-shot (k=0), one-shot (k=1), few-shot (k=2–32). Demonstracje muszą mieścić się w oknie kontekstowym modelu.

Zero-shotBrak demonstracji, tylko instrukcja w języku naturalnym.

One-shotJedna demonstracja przed zapytaniem.

Few-shotTypowo 4–8 demonstracji; standardowy reżim z papera GPT-3.

Many-shotSetki/tysiące demonstracji w długim oknie kontekstowym (Agarwal i in. 2024, Google DeepMind).

Nowy input zapytaniaPunkt zastosowania nauczonego wzorca

Faktyczny input, dla którego model ma wygenerować odpowiedź. Musi mieć ten sam format co inputy w demonstracjach, aby model rozpoznał wzorzec.

Induction headsMechanistyczny substrat uczenia w kontekście

Specyficzne głowice uwagi w warstwach 2+ transformera, które uczą się rozpoznawać wzorzec [A][B] ... [A] → [B] podczas pretrainingu. Olsson i in. (2022, Anthropic) wykazali, że induction heads są mechanistycznym substratem ICL — ich pojawienie się koreluje z fazą emergencji ICL podczas treningu.

Implementacja

Implementacje referencyjne

LangChain — FewShotPromptTemplate

Python · LangChain

DSPy — programmatic prompting (BootstrapFewShot)

Python · Stanford NLP

Oficjalna

PromptSource — toolkit do projektowania promptów ICL

Python · BigScience Workshop

Oficjalna

OpenAI Cookbook — Few-shot prompting examples

Python / Jupyter · OpenAI

Oficjalna

Pułapki implementacyjne

Wrażliwość na kolejność demonstracjiWysoka

Lu i in. (2022) pokazali, że ten sam zestaw demonstracji w różnej kolejności daje wyniki różniące się o 20–30 punktów procentowych accuracy. Część permutacji daje wyniki gorsze niż random baseline.

Rozwiązanie:Stosuj uśrednianie wyników po kilku permutacjach lub heurystyki sortowania (od najmniej do najbardziej podobnych do query).

Recency bias — model preferuje ostatnie demonstracjeŚrednia

Modele wykazują tendencję do dopasowywania się głównie do końcowych demonstracji w prompcie, ignorując informacje z wcześniejszych. Szczególnie problematyczne w many-shot ICL.

Rozwiązanie:Umieszczaj kluczowe demonstracje na końcu listy; dla zadań klasyfikacyjnych balansuj kolejność etykiet.

Majority label biasWysoka

Jeśli demonstracje są niezbalansowane (np. 6/8 ma etykietę „pozytywny"), model będzie systematycznie predyktował dominującą etykietę dla nowych zapytań.

Rozwiązanie:Balansuj etykiety w demonstracjach (np. po 4 z każdej klasy). Stosuj kalibrację wyjść (Zhao i in. 2021).

Format mismatch między demonstracjami a zapytaniemŚrednia

Subtelne różnice w formacie (np. spacja przed odpowiedzią, kropka na końcu inputu) między demonstracjami a zapytaniem mogą drastycznie obniżyć jakość ICL.

Rozwiązanie:Normalizuj format programowo. Zawsze testuj prompt z dokładnie tym samym separatorem dla demonstracji i query.

Wyciek danych testowych do demonstracjiWysoka

Łatwo przypadkowo umieścić w demonstracjach przykłady z testowego splitu. Skutkuje to zawyżonymi wynikami benchmarków.

Rozwiązanie:Strict separation puli demonstracji od test setu. Audytuj wszystkie demonstracje przed ewaluacją.

Ewolucja

Oryginalny paper · 2020 · NeurIPS 2020 (Best Paper Award) · Tom B. Brown

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei

2019

GPT-2 — pierwsze obserwacje zero-shot transferu (Radford i in.)

Radford i in. wykazują, że GPT-2 (1.5B parametrów) potrafi wykonywać zadania NLP bez fine-tuningu, jeśli odpowiednio sformułuje się prompt. Prekursor pełnego ICL.

Language Models are Unsupervised Multitask Learners (artykuł)

2020

GPT-3 i sformalizowanie few-shot ICL (Brown i in.)

Punkt przełomowy

Brown i in. wprowadzają systematyczną terminologię (zero-/one-/few-shot) i wykazują, że GPT-3 (175B) osiąga konkurencyjne wyniki względem fine-tunowanych modeli na dziesiątkach benchmarków NLP, wyłącznie przez ICL.

Language Models are Few-Shot Learners (artykuł)

2022

Bayesian inference framework dla ICL (Xie i in.)

Xie i in. proponują formalną interpretację ICL jako bayesowskiego wnioskowania o utajonym koncepcie zadania, wyjaśniającą, dlaczego ICL działa pomimo braku gradientów.

An Explanation of In-context Learning as Implicit Bayesian Inference (artykuł)

2022

Induction heads jako mechanistyczny substrat ICL (Olsson i in., Anthropic)

Punkt przełomowy

Anthropic identyfikuje induction heads — głowice uwagi formujące się w fazie pretrainingu, których pojawienie się koreluje z nagłym wzrostem zdolności ICL. Pierwszy mechanistyczny dowód, jak ICL emerguje w transformerze.

In-context Learning and Induction Heads (artykuł)

2022

Rola etykiet w ICL kwestionowana (Min i in.)

Min i in. wykazują, że losowe zastąpienie etykiet w demonstracjach minimalnie obniża jakość ICL — sugerując, że model uczy się formatu i przestrzeni etykiet, a nie samego mapowania input→output.

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? (artykuł)

2023

ICL jako implicit gradient descent (von Oswald i in.)

von Oswald i in. wykazują formalnie i empirycznie, że transformer w trybie ICL wykonuje krok gradient descent w przestrzeni aktywacji uwagi. Daje to teoretyczne podstawy mechanizmowi.

Transformers learn in-context by gradient descent (artykuł)

2024

Many-shot ICL — setki/tysiące demonstracji (Agarwal i in., Google DeepMind)

Punkt przełomowy

Wraz z modelami obsługującymi 1M+ tokenów (Gemini 1.5, Claude 3), DeepMind pokazuje, że many-shot ICL (np. 1000+ demonstracji) potrafi przewyższyć fine-tuning na wielu zadaniach.

Many-Shot In-Context Learning (artykuł)

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba demonstracji (k)Krytyczna

Liczba par (input, output) podanych w prompcie. Wpływa zarówno na jakość, jak i koszt inferencji (długość kontekstu).

0Zero-shot — tylko instrukcja, bez przykładów.

4–8Standardowy zakres few-shot z papera GPT-3.

32Górna granica używana w benchmarkach Brown i in. (2020).

100–1000+Many-shot ICL w długich kontekstach (Gemini 1.5 Pro, Claude 3).

Kolejność demonstracjiWysoka

Kolejność, w jakiej demonstracje pojawiają się w prompcie. Empirycznie jakość ICL jest silnie zależna od permutacji (Lu i in. 2022).

randomLosowa kolejność — duża wariancja wyniku.

similarity-rankedDemonstracje uporządkowane wg podobieństwa do zapytania.

Strategia wyboru demonstracjiWysoka

Sposób wybierania demonstracji z puli kandydatów. Static (stała pula) vs. dynamic (retrieval-based, np. KATE — k-nearest demonstrations).

staticTe same demonstracje dla wszystkich zapytań.

kNN retrieval (KATE)Demonstracje najbliższe semantycznie do zapytania (Liu i in. 2022).

Format demonstracjiŚrednia

Konwencja oddzielania pól input/output (np. 'Q:/A:', '###', tagi XML). Wpływa na jakość rozpoznawania wzorca przez model.

'Q: ... A: ...'Klasyczny format z papera GPT-3.

XML tags ('<input>...</input>')Preferowany dla Claude i strukturalnych outputów.

Złożoność obliczeniowa

Złożoność czasowa: O((k·L_demo + L_query)² · d). Złożoność przestrzenna: O(k·L_demo + L_query).

Wąskie gardło obliczeniowe

Kwadratowe self-attention nad demonstracjami

Self-attention skaluje się jak O(N²) względem długości promptu. Z k demonstracjami i długimi inputami koszt rośnie szybko, szczególnie w many-shot ICL.

Zależy od

Liczba demonstracji kDługość pojedynczej demonstracji

Paradygmat wykonania

Tryb główny

dense

ICL to technika promptowania stosowana do standardowego dense Transformera w trybie inferencji. Wszystkie parametry są aktywne, brak warunkowego routingu.

Wzorzec aktywacji

all_paths_active

Mechanizm routingu

Równoległość

Poziom równoległości

sequential

Prefill demonstracji może być w pełni równoległy (jeden forward pass nad całym promptem). Generacja odpowiedzi jest sekwencyjna jak w każdym dekoderze transformera.

Zakres

inference

Ograniczenia

!Tokeny odpowiedzi są generowane sekwencyjnie, każdy zależy od wszystkich poprzednich.