Trening

Pretraining

2018AktywnyOpublikowano: 6 maja 2026Aktualizacja: 6 maja 2026Opublikowany

Etap treningu, w którym model uczy się ogólnych reprezentacji danych z ogromnych nieoznaczonych zbiorów, używając zadań samonadzorowanych — fundament współczesnych modeli foundation (LLM, VLM, VLA).

Kluczowa innowacja

Trening modelu na ogromnych nieoznaczonych zbiorach danych przez zadania samonadzorowane (np. przewidywanie następnego tokenu, masked language modeling), tworzące uniwersalne reprezentacje przed dostrojeniem do konkretnych zastosowań.

Kategoria

Trening

Poziom abstrakcji

Paradigm

Poziom operacji

Dane

Zastosowania

Foundation models (LLM, VLM, VLA)Pretrained text encoders (BERT, RoBERTa)Generatywne modele językowe (GPT)Multimodalne modele kontrastowe (CLIP)Robotyczne modele bazowe (Pi-Zero, Gemini Robotics, Ti0)World models (action-conditioned video generation)Pretrained audio/speech models (Wav2Vec, Whisper)

Jak działa

Model otrzymuje na wejściu fragment danych z częściowo ukrytą lub przesuniętą informacją (next-token prediction w GPT, masked language modeling w BERT, contrastive learning w CLIP, next-frame prediction w world models). Funkcja straty mierzy jakość rekonstrukcji/predykcji. Trenowanie odbywa się na klastrach GPU/TPU przez tygodnie lub miesiące, na trylionach tokenów. Po pretrainingu model staje się bazą (foundation model) — można go dalej fine-tune'ować, dostrajać przez instruction tuning, RLHF, lub LoRA do konkretnych zastosowań.

Rozwiązany problem

Tradycyjne uczenie nadzorowane wymagało gigantycznych ręcznie etykietowanych zbiorów danych dla każdego nowego zadania, co było nieskalowalne. Pretraining samonadzorowany rozwiązuje to przez uczenie się z surowych nieoznaczonych danych, których jest praktycznie nieograniczona ilość, i transferowanie tej wiedzy na liczne zadania downstream przy minimalnym nadzorowanym dostrojeniu.

Komponenty

Surowy zbiór danychŹródło danych do treningu samonadzorowanego

Ogromny nieoznaczony zbiór danych (web crawl, kod, książki, wideo, telemetria robotów). Skala typowo 10¹²–10¹³ tokenów dla LLM.

Cel samonadzorowanyFunkcja straty bez ludzkich etykiet

Zadanie predykcyjne wykorzystujące strukturę danych jako sygnał uczący — next-token prediction, masked language modeling, contrastive loss, next-frame prediction.

Architektura bazowaNośnik reprezentacji uczonych w pretrainingu

Najczęściej Transformer (encoder-only, decoder-only lub encoder-decoder), również Diffusion Models w generatywnym video i obrazach.

Klaster obliczeniowyInfrastruktura trenująca

Tysiące GPU/TPU pracujących równolegle przez tygodnie/miesiące. Pretraining LLM klasy GPT-4 to typowo 10²⁵+ FLOP-ów.

Implementacja

Pułapki implementacyjne

Data contaminationWysoka

Dane benchmarków (MMLU, HellaSwag) wycieknięte do korpusu pretrainingowego sztucznie zawyżają wyniki ewaluacji.

Rozwiązanie:Decontamination pipeline — usuwanie n-gramów benchmarków z korpusu treningowego, evaluacja na świeżych zbiorach (Held-out, post-training).

Loss spikes i niestabilność trenowaniaKrytyczna

Przy dużych learning rate i fp16 training loss może gwałtownie skoczyć i zniszczyć wagi. Restart wymaga checkpointu sprzed dni.

Rozwiązanie:Mixed precision (bfloat16), gradient clipping, learning rate warmup, częste checkpointy, monitoring statystyk gradientów.

Suboptymalny stosunek tokens:parametersWysoka

Trenowanie zbyt dużego modelu na zbyt małej ilości danych (pre-Chinchilla) marnuje compute i daje gorsze wyniki niż mniejszy model na większym korpusie.

Rozwiązanie:Stosować scaling laws Chinchilla (≈20 tokens/param) lub nowsze (Llama 3 trenowane > 100 tokens/param dla inference efficiency).

Niska jakość danychWysoka

Surowy web crawl zawiera duplikaty, spam, treści niskiej jakości i toksyczne. Bez filtracji efekt to model słabszy niż na 10× mniejszym czystym korpusie.

Rozwiązanie:Pipeline deduplikacji (MinHash, exact match), klasyfikacja jakości (FastText, klasyfikator wzorowany na Wikipedii), filtracja toksyczności.

Ewolucja

Oryginalny paper · 2018 · OpenAI Tech Report · Alec Radford

Improving Language Understanding by Generative Pre-Training

Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

2013

Word2Vec — pretraining wektorów słów

Punkt przełomowy

Mikolov i in. pokazują, że samonadzorowany pretraining (skip-gram, CBOW) tworzy uniwersalne reprezentacje słów.

2018

GPT-1 i BERT — pretraining + fine-tuning jako paradygmat

Punkt przełomowy

OpenAI GPT (causal LM) i Google BERT (masked LM) ustanawiają wzorzec: duży pretraining + małe fine-tuning na zadanie downstream.

2020

GPT-3 — pretraining tworzy modele zdolne do in-context learning

Punkt przełomowy

Skala 175B parametrów + 300B tokenów pokazuje, że pretrainingowa wiedza wystarcza do wielu zadań bez fine-tuningu.

2021

CLIP — multimodalny pretraining kontrastowy

OpenAI CLIP łączy obraz i tekst w jednej przestrzeni embeddings przez kontrastywny pretraining na 400M par.

2022

Chinchilla — optymalny stosunek tokenów do parametrów

Punkt przełomowy

DeepMind pokazuje, że dotychczasowe LLM były „undertrained" — optimal compute wymaga ≈20 tokenów na parametr.

2023

Llama 2 — pretraining open-weight w skali frontier

Meta publikuje wagi modelu trenowanego na 2T tokenów, demokratyzując dostęp do dużych pretrained models.

2024

Robotics foundation models — pretraining dla VLA

Punkt przełomowy

Pi-Zero (Physical Intelligence), Gemini Robotics i RT-2 stosują pretraining na danych robotycznych + multimodalnych jako fundament VLA.

2025

Frontier-scale pretraining — 10²⁶ FLOPs

GPT-5, Gemini 3, Claude Opus 4 i Grok 4 osiągają skale wymagające klastrów 100k+ GPU H100/B200.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Rozmiar korpusu (tokenów)Krytyczna

Liczba tokenów w zbiorze treningowym. Skala 10⁹ (małe modele) do 10¹³+ (frontier LLM).

Rozmiar modelu (parametry)Krytyczna

Liczba parametrów modelu. Scaling laws Chinchilla wskazują optymalny stosunek tokens:params ≈ 20:1.

Typ celu samonadzorowanegoKrytyczna

Wybór zadania: causal LM (GPT), masked LM (BERT), contrastive (CLIP), denoising (T5), next-frame (world models).

Budżet obliczeniowy (FLOPs)Wysoka

Łączna liczba operacji zmiennoprzecinkowych. GPT-3 ≈ 3·10²³, GPT-4 ≈ 2·10²⁵, frontier 2025+ ≈ 10²⁶.

Filtracja jakości danychWysoka

Pipeline deduplikacji, klasyfikacji jakości, filtrowania toksyczności. Decyduje o efektywnym współczynniku „użytecznych tokenów".

Paradygmat wykonania

Tryb główny

dense

W standardowym pretrainingu wszystkie parametry są aktualizowane przy każdym kroku. Wariant MoE wprowadza sparse activation, ale pretraining sam w sobie pozostaje dense w fazie backward.

Wzorzec aktywacji

all_paths_active

Równoległość

Poziom równoległości

fully_parallel

Pretraining jest w pełni równoległy w wymiarze data parallelism + tensor parallelism + pipeline parallelism. Synchronizacja gradientów jest jedynym wąskim gardłem przy bardzo dużych klastrach.

Zakres

trainingacross_devices

Wymagania sprzętowe

Podstawowe

Pretraining LLM jest dominującym workloadem dla GPU H100/B200/GB200 — operacje GEMM na fp16/bf16/fp8 są ich głównym celem projektowym.

Podstawowe

Google TPU v4/v5/Trillium są zaprojektowane wokół pretrainingu Gemini i wcześniejszych modeli — vysoka przepustowość systolic array i InterChip Interconnect.

Ograniczony

CPU może trenować małe modele R&D, ale skala frontier pretrainingu jest niemożliwa na CPU z powodu braku przepustowości tensor ops.