Pretraining
Jak działa
Model otrzymuje na wejściu fragment danych z częściowo ukrytą lub przesuniętą informacją (next-token prediction w GPT, masked language modeling w BERT, contrastive learning w CLIP, next-frame prediction w world models). Funkcja straty mierzy jakość rekonstrukcji/predykcji. Trenowanie odbywa się na klastrach GPU/TPU przez tygodnie lub miesiące, na trylionach tokenów. Po pretrainingu model staje się bazą (foundation model) — można go dalej fine-tune'ować, dostrajać przez instruction tuning, RLHF, lub LoRA do konkretnych zastosowań.
Rozwiązany problem
Tradycyjne uczenie nadzorowane wymagało gigantycznych ręcznie etykietowanych zbiorów danych dla każdego nowego zadania, co było nieskalowalne. Pretraining samonadzorowany rozwiązuje to przez uczenie się z surowych nieoznaczonych danych, których jest praktycznie nieograniczona ilość, i transferowanie tej wiedzy na liczne zadania downstream przy minimalnym nadzorowanym dostrojeniu.
Komponenty
Ogromny nieoznaczony zbiór danych (web crawl, kod, książki, wideo, telemetria robotów). Skala typowo 10¹²–10¹³ tokenów dla LLM.
Zadanie predykcyjne wykorzystujące strukturę danych jako sygnał uczący — next-token prediction, masked language modeling, contrastive loss, next-frame prediction.
Najczęściej Transformer (encoder-only, decoder-only lub encoder-decoder), również Diffusion Models w generatywnym video i obrazach.
Tysiące GPU/TPU pracujących równolegle przez tygodnie/miesiące. Pretraining LLM klasy GPT-4 to typowo 10²⁵+ FLOP-ów.
Implementacja
Dane benchmarków (MMLU, HellaSwag) wycieknięte do korpusu pretrainingowego sztucznie zawyżają wyniki ewaluacji.
Przy dużych learning rate i fp16 training loss może gwałtownie skoczyć i zniszczyć wagi. Restart wymaga checkpointu sprzed dni.
Trenowanie zbyt dużego modelu na zbyt małej ilości danych (pre-Chinchilla) marnuje compute i daje gorsze wyniki niż mniejszy model na większym korpusie.
Surowy web crawl zawiera duplikaty, spam, treści niskiej jakości i toksyczne. Bez filtracji efekt to model słabszy niż na 10× mniejszym czystym korpusie.
Ewolucja
Mikolov i in. pokazują, że samonadzorowany pretraining (skip-gram, CBOW) tworzy uniwersalne reprezentacje słów.
OpenAI GPT (causal LM) i Google BERT (masked LM) ustanawiają wzorzec: duży pretraining + małe fine-tuning na zadanie downstream.
Skala 175B parametrów + 300B tokenów pokazuje, że pretrainingowa wiedza wystarcza do wielu zadań bez fine-tuningu.
OpenAI CLIP łączy obraz i tekst w jednej przestrzeni embeddings przez kontrastywny pretraining na 400M par.
DeepMind pokazuje, że dotychczasowe LLM były „undertrained" — optimal compute wymaga ≈20 tokenów na parametr.
Meta publikuje wagi modelu trenowanego na 2T tokenów, demokratyzując dostęp do dużych pretrained models.
Pi-Zero (Physical Intelligence), Gemini Robotics i RT-2 stosują pretraining na danych robotycznych + multimodalnych jako fundament VLA.
GPT-5, Gemini 3, Claude Opus 4 i Grok 4 osiągają skale wymagające klastrów 100k+ GPU H100/B200.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Liczba tokenów w zbiorze treningowym. Skala 10⁹ (małe modele) do 10¹³+ (frontier LLM).
Liczba parametrów modelu. Scaling laws Chinchilla wskazują optymalny stosunek tokens:params ≈ 20:1.
Wybór zadania: causal LM (GPT), masked LM (BERT), contrastive (CLIP), denoising (T5), next-frame (world models).
Łączna liczba operacji zmiennoprzecinkowych. GPT-3 ≈ 3·10²³, GPT-4 ≈ 2·10²⁵, frontier 2025+ ≈ 10²⁶.
Pipeline deduplikacji, klasyfikacji jakości, filtrowania toksyczności. Decyduje o efektywnym współczynniku „użytecznych tokenów".
Paradygmat wykonania
W standardowym pretrainingu wszystkie parametry są aktualizowane przy każdym kroku. Wariant MoE wprowadza sparse activation, ale pretraining sam w sobie pozostaje dense w fazie backward.
Równoległość
Pretraining jest w pełni równoległy w wymiarze data parallelism + tensor parallelism + pipeline parallelism. Synchronizacja gradientów jest jedynym wąskim gardłem przy bardzo dużych klastrach.
Wymagania sprzętowe
Pretraining LLM jest dominującym workloadem dla GPU H100/B200/GB200 — operacje GEMM na fp16/bf16/fp8 są ich głównym celem projektowym.
Google TPU v4/v5/Trillium są zaprojektowane wokół pretrainingu Gemini i wcześniejszych modeli — vysoka przepustowość systolic array i InterChip Interconnect.
CPU może trenować małe modele R&D, ale skala frontier pretrainingu jest niemożliwa na CPU z powodu braku przepustowości tensor ops.