RLHF składa się z trzech sekwencyjnych etapów:
1. Supervised Fine-Tuning (SFT): model bazowy jest dostrajany nadzorowanie na zbiorze par (prompt, odpowiedź) napisanych przez ludzi, tworząc politykę startową π_SFT.
2. Trening modelu nagrody: ludzcy adnotatorzy porównują pary odpowiedzi modelu na te same prompty i wybierają lepszą. Na tych porównaniach trenowany jest skalarny model nagrody r_φ(x, y) minimalizujący stratę Bradley-Terry: -E[log σ(r(x, y_w) − r(x, y_l))].
3. RL Fine-Tuning (PPO): polityka π_θ zainicjalizowana z SFT jest optymalizowana przez PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody r_φ, z karą za odchylenie od polityki referencyjnej π_SFT mierzoną dywergencją KL: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) ∥ π_SFT(y|x)). Współczynnik β zapobiega reward hackingowi — eksploatowaniu niedoskonałości modelu nagrody.
Uczenie złożonych zachowań AI zgodnych z intencjami i wartościami człowieka bez konieczności ręcznego definiowania funkcji nagrody. Klasyczne RL wymaga precyzyjnej, ręcznie zaprojektowanej nagrody — co jest niewykonalne dla zadań subiektywnych (np. generowania pomocnych, bezpiecznych i zgodnych z intencją odpowiedzi tekstowych). RLHF zastępuje tę funkcję modelem nagrody wytrenowanym na porównaniach preferencji zebranych od ludzi.
Pierwszy etap RLHF: wstępne dostrajanie nadzorowane modelu bazowego na zbiorze demonstracji napisanych przez ludzi (pary prompt–odpowiedź). Wynikowy model π_SFT stanowi punkt startowy dla treningu RL i jest używany jako model referencyjny do obliczania kary KL.
Oficjalna
Model skalarny r_φ(x, y) trenowany na parach porównań odpowiedzi zebranych od ludzkich adnotatorów. Uczy się przewidywać, którą odpowiedź człowiek by preferował, i dostarcza sygnał nagrody do etapu RL. Zwykle wykorzystuje model Bradley-Terry jako cel treningowy: minimalizuje -log σ(r(x, y_w) - r(x, y_l)), gdzie y_w to preferowana, a y_l odrzucona odpowiedź.
Oficjalna
Trzeci etap RLHF: optymalizacja polityki π_θ za pomocą algorytmu PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody z modelu nagrody, z jednoczesną karą za odchylenie od polityki referencyjnej (SFT). Cel: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) || π_SFT(y|x)). Kara KL ze współczynnikiem β zapobiega reward hackingowi.
Oficjalna
Zbiór danych zebranych od ludzkich adnotatorów, zawierający porównania par odpowiedzi modelu (y_w > y_l lub odwrotnie) dla tych samych promptów. Dane te są używane do treningu modelu nagrody. Jakość i spójność adnotatorów bezpośrednio wpływa na jakość wynikowego modelu nagrody.
Oficjalna
Model polityki może nauczyć się generować odpowiedzi, które uzyskują wysokie oceny modelu nagrody, ale są rzeczywiście niskiej jakości: nadmiernie długie, repetytywne, schematyczne lub zawierające sformułowania, które model nagrody nauczył się nagradzać nieproporcjonalnie. Wynika z faktu, że model nagrody jest niedoskonałym proxy dla rzeczywistych preferencji ludzkich.
Trening PPO jest wrażliwy na hiperparametry: współczynnik uczenia, wartość β kary KL, rozmiar batchów, zakres clippingu PPO i liczbę epok PPO na batch. Małe zmiany tych wartości mogą powodować dywergencję treningu lub zanik zdolności językowych modelu.
Różni ludzcy adnotatorzy mogą mieć niespójne preferencje, co wprowadza szum do danych preferencji i obniża jakość modelu nagrody. Wpływ na wynik ma zarówno liczba adnotatorów, jak i klarowność wytycznych dla adnotatorów.
RLHF może powodować degradację wydajności modelu na standardowych benchmarkach NLP (alignment tax): model staje się bardziej pomocny i bezpieczny, ale może stracić część surowych zdolności językowych, jeśli β i LR nie są odpowiednio dobrane.
Etap RL wymaga jednoczesnego załadowania do pamięci GPU czterech modeli (polityka, referencja, model nagrody, model wartości). Dla modeli 7B parametrów to ~56 GB samych wag w fp16, co wymaga zaawansowanego zarządzania pamięcią (gradient checkpointing, offloading, DeepSpeed ZeRO).
Paper 'Deep reinforcement learning from human preferences' wykazał, że ludzkie preferencje między segmentami trajektorii mogą efektywnie zastąpić funkcję nagrody w RL, umożliwiając naukę złożonych zachowań w środowiskach Atari i symulacjach robotycznych przy mniej niż 1% liczby interakcji z otoczeniem.
Paper 'Learning to summarize with human feedback' rozszerzył RLHF na zadanie streszczania tekstu z użyciem GPT modeli, demonstrując przeniesienie techniki z zadań RL do zadań NLP z modelami językowymi.
Paper 'Training language models to follow instructions with human feedback' przedstawił pełny potok RLHF (SFT → RM Training → PPO) dla GPT-3, tworząc InstructGPT. Wykazał, że model 1.3B parametrów wytrenowany z RLHF jest preferowany przez ludzi nad modelem GPT-3 175B bez RLHF. Stał się fundamentem dla ChatGPT i dalszych systemów alignmentu LLM.
OpenAI wdrożyło RLHF w ChatGPT, który stał się pierwszym powszechnie stosowanym asystentem AI wytrenowanym z użyciem technik RLHF. Zapoczątkowało to powszechne stosowanie RLHF przez inne laboratoria (Anthropic, Google, Meta).
Rafailov et al. opublikowali DPO (arXiv:2305.18290), wykazując, że cel RLHF można zoptymalizować bezpośrednio przez jedną stratę nadzorowaną na parach preferencji, bez konieczności trenowania osobnego modelu nagrody i pętli PPO. DPO stał się popularną alternatywą dla RLHF, szczególnie w zastosowaniach o ograniczonych zasobach obliczeniowych.
Złożoność czasowa: O(N_pref · L²·d) + O(K_PPO · B · L²·d). Złożoność przestrzenna: O(4 · P) wag + O(B · L · d) aktywacji.
Standardowy etap RL w RLHF wymaga jednoczesnego ładowania do pamięci GPU czterech modeli: aktywnej polityki (π_θ), zamrożonej polityki referencyjnej (π_SFT) do obliczania kary KL, modelu nagrody (r_φ) oraz modelu wartości/krytyki (value model) dla szacowania przewagi (advantage) w PPO. Dla modeli o rozmiarze 7B oznacza to ~4×14 GB = ~56 GB samych wag w fp16, bez stanów optymalizatora i aktywacji.
RLHF nie jest paradygmatem inferencji, lecz wieloetapowym potokiem treningowym. Każdy z trzech etapów używa standardowego dense Transformera. 'Stage-dependent' odnosi się do faktu, że każdy etap ma inny cel treningowy: cross-entropy (SFT), binary cross-entropy na parach (RM), zoptymalizowany policy gradient z karą KL (RL).
W ramach każdego etapu możliwe jest zrównoleglenie danych (data parallelism) i modeli (tensor/pipeline parallelism) na wielu GPU/TPU. Generowanie rolloutów w etapie RL może być zrównoleglone przez wiele replik polityki.
Waga kary KL w celu PPO: Objective = r_φ(x,y) − β · KL(π_θ||π_SFT). Zbyt mała wartość → reward hacking (model eksploatuje słabości modelu nagrody). Zbyt duża wartość → minimalna zmiana polityki względem SFT.
Model nagrody zazwyczaj ma tę samą architekturę co polityka LLM, z dodatkową głowicą skalarną zamiast głowicy językowej. Rozmiar modelu nagrody wpływa na jakość sygnału preferencji.
Rozmiar zbioru danych preferencji używanego do treningu modelu nagrody. Bezpośrednio wpływa na koszt adnotacji i jakość modelu nagrody.
Szybkość uczenia w etapie PPO. Zbyt wysoka → niestabilność i reward hacking; zbyt niska → wolna konwergencja.
RLHF wymaga efektywnych operacji GEMM dla czterech modeli Transformer jednocześnie podczas etapu PPO, akcelerowanych przez Tensor Cores (NVIDIA A100, H100). Generowanie rolloutów on-policy jest kosztowne i wymaga GPU o dużej pamięci HBM (40–80 GB).
TPU v4/v5 są stosowane przez Google do RLHF dla modeli Gemini i PaLM-RLHF. Efektywnie obsługują operacje GEMM i mogą obsługiwać wszystkie cztery modele w konfiguracji TPU Pod.