Scaling Laws (Kaplan / Chinchilla)
Jak działa
Dla modeli jezykowych strata L skaluje sie jako L(N) ~ N^(-alpha_N), L(D) ~ D^(-alpha_D), L(C) ~ C^(-alpha_C), gdzie wykładniki alpha sa charakterystyczne dla modelu i zadania. Badacze dopasowuja te prawa potegowe do wynikow eksperymentow przy roznych N, D, C i ekstrapoluja do wiekszych skal.
Rozwiązany problem
Brak przewidywalnych zasad alokacji zasobow obliczeniowych: nie wiadomo, jak optymalne jest trenowanie duzego modelu przez krotki czas versus małego przez długi czas, ani ile parametrow potrzeba dla danego budzetu.
Komponenty
Liczba uczących się wag modelu (z wykluczeniem embeddingów w oryginalnym sformułowaniu Kaplana). Główny wymiar pojemności reprezentacyjnej.
Liczba tokenów (lub przykładów) w zbiorze uczącym. Definiuje maksymalny zasób informacji, z którego model może się uczyć.
Całkowity koszt obliczeniowy treningu, zwykle wyrażony w FLOPach. Dla transformerów z gęstą uwagą: C ≈ 6 · N · D.
Strata cross-entropii (test/val) jako zmienna zależna w prawach skalowania: L(N), L(D), L(C) mają charakter potęgowy z asymptotą.
Empirycznie dopasowane wykładniki kontrolujące tempo redukcji straty wraz ze wzrostem N, D lub C. W oryginalnej pracy Kaplana α_N ≈ 0.076, α_D ≈ 0.095, α_C ≈ 0.050 (szczegóły zależą od fitu).
Implementacja
Praca Kaplana sugerowała zwiększanie N znacznie szybciej niż D (modele takie jak GPT-3 były skutkiem). Chinchilla pokazała, że to było wynikiem niewłaściwego LR-cooldown i suboptymalnego treningu, a optymalna alokacja to ~równe skalowanie N i D (≈ 20 tokenów/parametr).
Wykładniki α są dopasowywane na ograniczonym zakresie (N, D, C). Ekstrapolacja o 2–3 rzędy wielkości może być niedokładna, zwłaszcza w pobliżu nieredukowalnej straty (irreducible loss).
Chinchilla optymalizuje koszt treningu. W produkcji liczy się też koszt inferencji — dla modeli serwowanych miliardom użytkowników opłaca się trenować mniejsze modele dłużej (Llama, Mistral).
Wykładniki α różnią się między modalnościami (vision, code, multimodal) i zadaniami (capability vs perplexity). Bezpośrednie przeniesienie liczb z Kaplana lub Chinchilla na inne dziedziny daje błędne predykcje.
Ewolucja
McCandlish et al. (OpenAI) opisują skalowanie krytycznego rozmiaru batcha z gradient noise scale — prototyp metodologii Kaplana.
Dla modeli serwowanych w produkcji opłaca się trenować poniżej Chinchilla-optimal: mniejsze N, dużo większe D (np. 100+ tokenów/parametr w Llama-3), aby obniżyć koszt inferencji.
Niezależne replikacje (Epoch AI) wykazały, że oryginalne fity Chinchilla mogą zaniżać optymalne D — efektywny ratio tokenów/parametr może być wyższy niż 20.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Skalowalna od ~10^6 (małe testy) po ~10^12+ (frontier LLMs). Zwiększenie N redukuje stratę zgodnie z L(N) ~ N^(-α_N) przy ustalonym C.
Liczba tokenów w zbiorze uczącym. Chinchilla wykazała, że D powinno rosnąć ~liniowo z N (≈ 20 tokenów / parametr) dla optimum compute-efficient.
Łączny koszt treningu. Dla danego C minimalna strata osiągana jest przy konkretnej parze (N*, D*) — Chinchilla daje N* ≈ D*/20.
Rozmiar batcha, powyżej którego korzyści z większej równoległości danych spadają. Również skaluje się jako prawo potęgowe z L (McCandlish et al. 2018).
Optymalny LR i jego cooldown zależą od (N, D). Niewłaściwy LR potrafi maskować prawdziwe prawa skalowania w eksperymentach.
Kaplan et al. wykazali, że przy ustalonym N kształt (depth vs width) ma marginalne znaczenie dla L. Stąd: skaluj N, nie strojąc shape.
Wymagania sprzętowe
Prawa skalowania są obserwacją empiryczną o relacji (N, D, C) → L. Nie zależą od konkretnej architektury hardware — działają tak długo, jak długo można zmierzyć FLOPy treningu i stratę.
W praktyce dopasowywanie praw skalowania wymaga przeprowadzenia wielu treningów na różnych N i D — co wymaga wydajnego hardware do treningu LLM (H100/A100/B200/TPU). Krytyczny batch size pochodzi z literatury data-parallel na GPU.
Chinchilla została wytrenowana na TPU (Google). Prawa skalowania są równie ważne dla treningu na TPU, jak dla GPU.