Trening

Scaling Laws (Kaplan / Chinchilla)

2020AktywnyAktualizacja: 7 maja 2026Opublikowany

Empiryczne prawa potegowe opisujace zaleznos wydajnosci modeli jezykowych od rozmiaru parametrow, danych i obliczen.

Kluczowa innowacja

Sformalizował empiryczne prawidłowości potegowe laczace wydajnosc modelu z rozmiarem parametrow, rozmiarem danych i budzetem obliczeniowym, umozliwiajac przewidywanie wydajnosci i optymalną alokację zasobow.

Kategoria

Trening

Poziom abstrakcji

Pattern

Poziom operacji

Trening

Zastosowania

Planowanie treningu modeli jezykowychAlokacja budzetu obliczeniowegoPrzewidywanie wydajnosci modeluDecyzje o architekturze

Jak działa

Dla modeli jezykowych strata L skaluje sie jako L(N) ~ N^(-alpha_N), L(D) ~ D^(-alpha_D), L(C) ~ C^(-alpha_C), gdzie wykładniki alpha sa charakterystyczne dla modelu i zadania. Badacze dopasowuja te prawa potegowe do wynikow eksperymentow przy roznych N, D, C i ekstrapoluja do wiekszych skal.

Rozwiązany problem

Brak przewidywalnych zasad alokacji zasobow obliczeniowych: nie wiadomo, jak optymalne jest trenowanie duzego modelu przez krotki czas versus małego przez długi czas, ani ile parametrow potrzeba dla danego budzetu.

Komponenty

Liczba parametrów modelu (N)Wymiar pojemności reprezentacyjnej

Liczba uczących się wag modelu (z wykluczeniem embeddingów w oryginalnym sformułowaniu Kaplana). Główny wymiar pojemności reprezentacyjnej.

Rozmiar zbioru uczącego (D)Wymiar pojemności informacyjnej

Liczba tokenów (lub przykładów) w zbiorze uczącym. Definiuje maksymalny zasób informacji, z którego model może się uczyć.

Budżet obliczeniowy (C)Wymiar zasobów

Całkowity koszt obliczeniowy treningu, zwykle wyrażony w FLOPach. Dla transformerów z gęstą uwagą: C ≈ 6 · N · D.

Strata uczenia (L)Zmienna zależna (mierzona)

Strata cross-entropii (test/val) jako zmienna zależna w prawach skalowania: L(N), L(D), L(C) mają charakter potęgowy z asymptotą.

Wykładniki potęgowe (α_N, α_D, α_C)Parametry kształtu krzywej

Empirycznie dopasowane wykładniki kontrolujące tempo redukcji straty wraz ze wzrostem N, D lub C. W oryginalnej pracy Kaplana α_N ≈ 0.076, α_D ≈ 0.095, α_C ≈ 0.050 (szczegóły zależą od fitu).

Implementacja

Implementacje referencyjne

Kaplan et al. 2020 — paper + figures

OpenAI

Oficjalna

Chinchilla — Hoffmann et al. 2022

DeepMind

Oficjalna

Chinchilla scaling laws — community replication / fit (EpochAI)

Epoch AI

Pułapki implementacyjne

Stosowanie Kaplan-optymalnej alokacji zamiast ChinchillaKrytyczna

Praca Kaplana sugerowała zwiększanie N znacznie szybciej niż D (modele takie jak GPT-3 były skutkiem). Chinchilla pokazała, że to było wynikiem niewłaściwego LR-cooldown i suboptymalnego treningu, a optymalna alokacja to ~równe skalowanie N i D (≈ 20 tokenów/parametr).

Rozwiązanie:Stosuj Chinchilla-optymalną alokację (~20 tokenów/parametr) jako baseline. Dla deployment-cost-aware treningu over-training (>>20:1) jest racjonalny — mniejszy model, więcej tokenów, niższy koszt inferencji.

Ekstrapolacja praw skalowania poza zakres pomiaruWysoka

Wykładniki α są dopasowywane na ograniczonym zakresie (N, D, C). Ekstrapolacja o 2–3 rzędy wielkości może być niedokładna, zwłaszcza w pobliżu nieredukowalnej straty (irreducible loss).

Rozwiązanie:Mierz prawa skalowania na nakładających się zakresach (małe + średnie modele) i waliduj fit przez held-out scale. Uwzględnij irreducible loss w funkcji fitującej.

Mylenie compute-optimal z deployment-optimalŚrednia

Chinchilla optymalizuje koszt treningu. W produkcji liczy się też koszt inferencji — dla modeli serwowanych miliardom użytkowników opłaca się trenować mniejsze modele dłużej (Llama, Mistral).

Rozwiązanie:Definiuj funkcję celu jako training_cost + λ · inference_cost · usage_volume. Dla wysokiego wolumenu użycia λ przesuwa optimum w stronę mniejszych modeli z większym D.

Założenie, że prawa skalowania języka są uniwersalneWysoka

Wykładniki α różnią się między modalnościami (vision, code, multimodal) i zadaniami (capability vs perplexity). Bezpośrednie przeniesienie liczb z Kaplana lub Chinchilla na inne dziedziny daje błędne predykcje.

Rozwiązanie:Dla nowej dziedziny dopasuj własne prawa skalowania na małych modelach przed dużym treningiem. Ostrożnie z benchmarkami capability — nie skalują się tak gładko jak loss.

Ewolucja

Oryginalny paper · 2020 · arXiv 2020 · Jared Kaplan

Scaling Laws for Neural Language Models

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

2020

Scaling Laws dla modeli jezykowych (OpenAI)

Punkt przełomowy

2022

Chinchilla - prawa skalowania Hoffmanna et al.

Punkt przełomowy

2023

Prawa skalowania dla specyficznych dziedzin i modalnosci

2018

Empiryczne prawa skalowania batch size (proto)

McCandlish et al. (OpenAI) opisują skalowanie krytycznego rozmiaru batcha z gradient noise scale — prototyp metodologii Kaplana.

An Empirical Model of Large-Batch Training (artykuł)

2024

Era over-trainingu (Llama, Mistral, Gemma)

Punkt przełomowy

Dla modeli serwowanych w produkcji opłaca się trenować poniżej Chinchilla-optimal: mniejsze N, dużo większe D (np. 100+ tokenów/parametr w Llama-3), aby obniżyć koszt inferencji.

2024

Krytyka i refit Chinchilla (Epoch AI)

Niezależne replikacje (Epoch AI) wykazały, że oryginalne fity Chinchilla mogą zaniżać optymalne D — efektywny ratio tokenów/parametr może być wyższy niż 20.

Chinchilla's scaling law fits are not as accurate as they seem (artykuł)

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba parametrów (N)Krytyczna

Skalowalna od ~10^6 (małe testy) po ~10^12+ (frontier LLMs). Zwiększenie N redukuje stratę zgodnie z L(N) ~ N^(-α_N) przy ustalonym C.

125MGPT-2 small

1.5BGPT-2 XL

70BChinchilla

175BGPT-3 (Kaplan-optymalna), niedouczona wg Chinchilla

Rozmiar danych w tokenach (D)Krytyczna

Liczba tokenów w zbiorze uczącym. Chinchilla wykazała, że D powinno rosnąć ~liniowo z N (≈ 20 tokenów / parametr) dla optimum compute-efficient.

300BGPT-3 training tokens

1.4TChinchilla 70B (~20×N)

15T+Llama-3 era (over-training poniżej 20:1)

Budżet FLOP (C)Krytyczna

Łączny koszt treningu. Dla danego C minimalna strata osiągana jest przy konkretnej parze (N*, D*) — Chinchilla daje N* ≈ D*/20.

~3e23 FLOPGPT-3

~5.7e23 FLOPChinchilla 70B

Krytyczny rozmiar batcha (B_crit)Wysoka

Rozmiar batcha, powyżej którego korzyści z większej równoległości danych spadają. Również skaluje się jako prawo potęgowe z L (McCandlish et al. 2018).

Harmonogram learning rateWysoka

Optymalny LR i jego cooldown zależą od (N, D). Niewłaściwy LR potrafi maskować prawdziwe prawa skalowania w eksperymentach.

Kształt architektury (depth/width)Niska

Kaplan et al. wykazali, że przy ustalonym N kształt (depth vs width) ma marginalne znaczenie dla L. Stąd: skaluj N, nie strojąc shape.

Wymagania sprzętowe

Podstawowe

Prawa skalowania są obserwacją empiryczną o relacji (N, D, C) → L. Nie zależą od konkretnej architektury hardware — działają tak długo, jak długo można zmierzyć FLOPy treningu i stratę.

Dobry fit

W praktyce dopasowywanie praw skalowania wymaga przeprowadzenia wielu treningów na różnych N i D — co wymaga wydajnego hardware do treningu LLM (H100/A100/B200/TPU). Krytyczny batch size pochodzi z literatury data-parallel na GPU.

Dobry fit

Chinchilla została wytrenowana na TPU (Google). Prawa skalowania są równie ważne dla treningu na TPU, jak dla GPU.

Źródła

Scaling Laws for Neural Language Models

Paper

Training Compute-Optimal Large Language Models (Chinchilla)

Paper

An Empirical Model of Large-Batch Training (McCandlish et al.)

Paper

Chinchilla's scaling law fits are not as accurate as they seem (Epoch AI)

Blog