Chinchilla (Compute-Optimal Scaling)
Jak działa
Hoffmann et al. przeprowadzili ponad 400 treningów modeli o rozmiarach 70 mln – 16 mld parametrów na zbiorach od 5 mld do 500 mld tokenów. Dopasowali trzy niezależne metody do danych: (1) IsoFLOP curves — dla ustalonego C zmieniają N i D, znajdują minimum L; (2) parametric loss fit — dopasowują L(N, D) = E + A/N^α + B/D^β; (3) IsoLoss curves. Wszystkie trzy metody zbiegły do tego samego wniosku: optymalne N* i D* skalują się jak N* ∝ C^0.5 i D* ∝ C^0.5, co przekłada się na ~20 tokenów / parametr. Następnie wytrenowali Chinchilla 70B na 1,4T tokenów, aby zweryfikować predykcję — model pokonał 280B Gophera na MMLU (67,5% vs 60,0%) i większości benchmarków.
Rozwiązany problem
Wcześniejsze prawa skalowania Kaplan et al. (2020) sugerowały, że przy ograniczonym budżecie obliczeniowym należy faworyzować znacznie większe modele kosztem ilości danych. To prowadziło do trenowania modeli takich jak GPT-3 i Gopher, które były niedouczone i nieoptymalne pod względem alokacji zasobów.
Komponenty
Pierwsza metoda Hoffmanna et al.: dla ustalonego budżetu C zmienia się N i D, mierzy L i znajduje (N*, D*) minimalizujące stratę. Powtórzone dla wielu wartości C daje krzywą optymalną.
Druga metoda: dopasowanie powierzchni strat jako sumy nieredukowalnej straty E i dwóch składników potęgowych z parametrami α, β, A, B. Hoffmann et al. raportują α ≈ 0.34, β ≈ 0.28.
Główny praktyczny wniosek: dla compute-optimal treningu liczba tokenów uczących powinna być w przybliżeniu 20× większa niż liczba parametrów modelu.
Standardowe przybliżenie kosztu treningu transformera z gęstą uwagą. Wykorzystywane do obliczania N* i D* dla danego C: N* ≈ √(C/(6·20)), D* ≈ 20·N*.
Oficjalna
Empiryczny test predykcji: 70 mld parametrów wytrenowane na 1,4 bln tokenów (ratio = 20:1) przy tym samym budżecie compute co 280B Gopher. Pokonał Gophera na MMLU 67,5% vs 60,0%.
Implementacja
Chinchilla optymalizuje training cost. Dla modeli serwowanych miliardom użytkowników (ChatGPT, Claude, Llama API) liczy się głównie inference cost — wtedy mniejszy model trenowany dłużej (over-training) jest racjonalny mimo nieoptymalności compute.
Ratio 20 zostało zmierzone na języku angielskim z curated webcorpora. Dla code, wizji, multimodalu czy reasoning-heavy domains wykładniki α, β różnią się — efektywny optymalny ratio może być inny.
Hoffmann et al. wskazali, że Kaplan-era fitty były zniekształcone, bo cooldown LR nie kończył się zgodnie z długością treningu. Ten sam błąd nadal pojawia się w replikacjach.
Replikacje Epoch AI (2024) sugerują, że oryginalne fity Chinchilla mogą zaniżać optymalne D. Plus dataset quality ma duży wpływ — czysty kod, syntetyczne dane reasoning, podpisy obrazów mają inną dynamikę skalowania.
Ewolucja
OpenAI publikuje "Scaling Laws for Neural Language Models". Sugeruje skalowanie N znacznie szybciej niż D — co retrospektywnie okazuje się błędne.
DeepMind dowodzi, że GPT-3 i Gopher są niedouczone. Wprowadza compute-optimal ratio ~20 tokenów/parametr i weryfikuje to na 70B Chinchilla.
Meta trenuje Llama-1 i Llama-2 znacznie powyżej Chinchilla-optimal (50+ tokenów/parametr), świadomie poświęcając compute-optimality dla niższego kosztu inferencji.
Llama-3 trenowane jest na 15T tokenach — dla modelu 8B oznacza ratio ~1875, daleko poza compute-optimal. Era inference-cost-aware treningu.
Niezależne replikacje Epoch AI sugerują, że oryginalne fity Hoffmanna mogą zaniżać optymalne D — efektywny ratio może być wyższy niż 20.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Ratio Chinchilla = 20. Llama-2 i Llama-3 trenują znacznie powyżej (50+, 100+) — to świadome over-training dla obniżenia kosztu inferencji.
N* ∝ C^0.5 zgodnie z fitem Hoffmanna et al. Dla C = 6e23 FLOP optimum to ~70 mld parametrów (Chinchilla).
D* ∝ C^0.5, w praktyce D* ≈ 20·N*. Dla Chinchilla = 1.4T tokenów.
Hoffmann et al. zwrócili uwagę, że oryginalne fity Kaplana były zniekształcone przez nieskalibrowany cooldown LR. W Chinchilla cooldown trwa pełną długość treningu — krytyczne dla replikowalności.
Wymagania sprzętowe
Compute-optimal scaling jest matematyczną relacją między N, D, C i L. Nie zależy od konkretnej architektury hardware, dopóki można zmierzyć FLOPy.
Chinchilla była wytrenowana na klastrach TPU DeepMind. Cały eksperyment IsoFLOP (>400 runów) był prowadzony na TPU.
Późniejsze replikacje (Llama na A100/H100, Mistral) potwierdzają, że Chinchilla scaling działa równie dobrze na GPU. W praktyce wszystkie nowoczesne LLM trenowane na GPU stosują Chinchilla jako baseline.