Robocikowo>ROBOCIKOWO
Trening

Chinchilla (Compute-Optimal Scaling)

2022AktywnyOpublikowano: 7 maja 2026Aktualizacja: 7 maja 2026Opublikowany
Compute-optimalne prawo skalowania Hoffmanna et al. (DeepMind, 2022): dla ustalonego budżetu treningowego N i D powinny rosnąć równomiernie, ok. 20 tokenów na parametr.
Kluczowa innowacja
Empirycznie wykazał, że dla danego budżetu obliczeniowego liczba parametrów modelu (N) i liczba tokenów uczących (D) powinny rosnąć w przybliżeniu w równym tempie — w przybliżeniu 20 tokenów na parametr — co przewróciło wcześniejszą rekomendację Kaplan et al. faworyzującą znacznie szybsze skalowanie N.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
Trening
Zastosowania
Planowanie treningu LLM przy ograniczonym budżecie obliczeniowymDobór par (N, D) dla modeli foundationWalidacja, czy plan treningu nie jest niedouczonyPunkt odniesienia dla decyzji o over-trainingu

Jak działa

Hoffmann et al. przeprowadzili ponad 400 treningów modeli o rozmiarach 70 mln – 16 mld parametrów na zbiorach od 5 mld do 500 mld tokenów. Dopasowali trzy niezależne metody do danych: (1) IsoFLOP curves — dla ustalonego C zmieniają N i D, znajdują minimum L; (2) parametric loss fit — dopasowują L(N, D) = E + A/N^α + B/D^β; (3) IsoLoss curves. Wszystkie trzy metody zbiegły do tego samego wniosku: optymalne N* i D* skalują się jak N* ∝ C^0.5 i D* ∝ C^0.5, co przekłada się na ~20 tokenów / parametr. Następnie wytrenowali Chinchilla 70B na 1,4T tokenów, aby zweryfikować predykcję — model pokonał 280B Gophera na MMLU (67,5% vs 60,0%) i większości benchmarków.

Rozwiązany problem

Wcześniejsze prawa skalowania Kaplan et al. (2020) sugerowały, że przy ograniczonym budżecie obliczeniowym należy faworyzować znacznie większe modele kosztem ilości danych. To prowadziło do trenowania modeli takich jak GPT-3 i Gopher, które były niedouczone i nieoptymalne pod względem alokacji zasobów.

Komponenty

IsoFLOP curvesEmpiryczna metoda fittingowa #1

Pierwsza metoda Hoffmanna et al.: dla ustalonego budżetu C zmienia się N i D, mierzy L i znajduje (N*, D*) minimalizujące stratę. Powtórzone dla wielu wartości C daje krzywą optymalną.

Parametric loss surface L(N, D)Empiryczna metoda fittingowa #2

Druga metoda: dopasowanie powierzchni strat jako sumy nieredukowalnej straty E i dwóch składników potęgowych z parametrami α, β, A, B. Hoffmann et al. raportują α ≈ 0.34, β ≈ 0.28.

Compute-optimal ratio (~20 tokens/param)Heurystyka inżynierska

Główny praktyczny wniosek: dla compute-optimal treningu liczba tokenów uczących powinna być w przybliżeniu 20× większa niż liczba parametrów modelu.

Compute approximation C ≈ 6 · N · DKonwersja C ↔ (N, D)

Standardowe przybliżenie kosztu treningu transformera z gęstą uwagą. Wykorzystywane do obliczania N* i D* dla danego C: N* ≈ √(C/(6·20)), D* ≈ 20·N*.

Oficjalna

Chinchilla 70B (zweryfikowany model)Eksperyment walidacyjny

Empiryczny test predykcji: 70 mld parametrów wytrenowane na 1,4 bln tokenów (ratio = 20:1) przy tym samym budżecie compute co 280B Gopher. Pokonał Gophera na MMLU 67,5% vs 60,0%.

Implementacja

Pułapki implementacyjne
Mylenie compute-optimal z deployment-optimalWysoka

Chinchilla optymalizuje training cost. Dla modeli serwowanych miliardom użytkowników (ChatGPT, Claude, Llama API) liczy się głównie inference cost — wtedy mniejszy model trenowany dłużej (over-training) jest racjonalny mimo nieoptymalności compute.

Rozwiązanie:Definiuj funkcję celu jako training_cost + λ · inference_cost · usage_volume. Dla wysokiego wolumenu λ przesuwa optimum w stronę mniejszych modeli z większym D.
Bezkrytyczne stosowanie ratio 20:1 do nowych modalnościWysoka

Ratio 20 zostało zmierzone na języku angielskim z curated webcorpora. Dla code, wizji, multimodalu czy reasoning-heavy domains wykładniki α, β różnią się — efektywny optymalny ratio może być inny.

Rozwiązanie:Dla nowej dziedziny dopasuj własne IsoFLOP curves na małych modelach (do ~1B params) zanim podejmiesz decyzję o full-scale runie.
Niekalibrowany cooldown learning rateWysoka

Hoffmann et al. wskazali, że Kaplan-era fitty były zniekształcone, bo cooldown LR nie kończył się zgodnie z długością treningu. Ten sam błąd nadal pojawia się w replikacjach.

Rozwiązanie:Cooldown LR powinien kończyć się dokładnie na końcu zaplanowanego horyzontu treningu (D tokenów). Nie używaj cooldown ze stałym horyzontem dla różnych D.
Zakładanie, że ratio 20 jest niezmiennym prawem naturyŚrednia

Replikacje Epoch AI (2024) sugerują, że oryginalne fity Chinchilla mogą zaniżać optymalne D. Plus dataset quality ma duży wpływ — czysty kod, syntetyczne dane reasoning, podpisy obrazów mają inną dynamikę skalowania.

Rozwiązanie:Traktuj ratio 20 jako rough baseline, nie jako prawo. Mierz IsoFLOP dla swojego dataset / modality.

Ewolucja

Oryginalny paper · 2022 · NeurIPS 2022 · Jordan Hoffmann
Training Compute-Optimal Large Language Models
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
2020
Kaplan et al. — pierwsze prawa skalowania (kontekst)

OpenAI publikuje "Scaling Laws for Neural Language Models". Sugeruje skalowanie N znacznie szybciej niż D — co retrospektywnie okazuje się błędne.

2022
Hoffmann et al. publikują Chinchilla
Punkt przełomowy

DeepMind dowodzi, że GPT-3 i Gopher są niedouczone. Wprowadza compute-optimal ratio ~20 tokenów/parametr i weryfikuje to na 70B Chinchilla.

2023
Llama 1 i 2 — celowe over-training
Punkt przełomowy

Meta trenuje Llama-1 i Llama-2 znacznie powyżej Chinchilla-optimal (50+ tokenów/parametr), świadomie poświęcając compute-optimality dla niższego kosztu inferencji.

2024
Llama-3 — ekstremalne over-training (~150 tokens/param)

Llama-3 trenowane jest na 15T tokenach — dla modelu 8B oznacza ratio ~1875, daleko poza compute-optimal. Era inference-cost-aware treningu.

2024
Epoch AI — refit i krytyka oryginalnego Chinchilla

Niezależne replikacje Epoch AI sugerują, że oryginalne fity Hoffmanna mogą zaniżać optymalne D — efektywny ratio może być wyższy niż 20.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Ratio tokenów/parametr (D/N)Krytyczna

Ratio Chinchilla = 20. Llama-2 i Llama-3 trenują znacznie powyżej (50+, 100+) — to świadome over-training dla obniżenia kosztu inferencji.

~1.7GPT-3 (Kaplan-era, niedouczony)
20Chinchilla compute-optimal
~28Llama-2 7B (1.4T tok / ~50 dla 7B≈)
~150–200Llama-3 (over-trained dla inference cost)
N* dla danego CKrytyczna

N* ∝ C^0.5 zgodnie z fitem Hoffmanna et al. Dla C = 6e23 FLOP optimum to ~70 mld parametrów (Chinchilla).

D* dla danego CKrytyczna

D* ∝ C^0.5, w praktyce D* ≈ 20·N*. Dla Chinchilla = 1.4T tokenów.

Cooldown learning rateWysoka

Hoffmann et al. zwrócili uwagę, że oryginalne fity Kaplana były zniekształcone przez nieskalibrowany cooldown LR. W Chinchilla cooldown trwa pełną długość treningu — krytyczne dla replikowalności.

Wymagania sprzętowe

Podstawowe

Compute-optimal scaling jest matematyczną relacją między N, D, C i L. Nie zależy od konkretnej architektury hardware, dopóki można zmierzyć FLOPy.

Dobry fit

Chinchilla była wytrenowana na klastrach TPU DeepMind. Cały eksperyment IsoFLOP (>400 runów) był prowadzony na TPU.

Dobry fit

Późniejsze replikacje (Llama na A100/H100, Mistral) potwierdzają, że Chinchilla scaling działa równie dobrze na GPU. W praktyce wszystkie nowoczesne LLM trenowane na GPU stosują Chinchilla jako baseline.