Zachowanie AI

RLHF

2017Aktualizacja: 10 maja 2026

Technika trenowania modeli AI przy użyciu ludzkiej oceny jakości odpowiedzi.

Kluczowa innowacja

Zastąpienie ręcznie definiowanych funkcji nagrody modelem nagrody wytrenowanym na preferencjach wyrażonych przez ludzi, co umożliwia uczenie się złożonych zachowań zgodnych z intencjami człowieka bez konieczności eksplicytnego definiowania wszystkich kryteriów nagrody.

Kategoria

Zachowanie AI

Poziom abstrakcji

Paradygmat

Poziom operacji

TreningPo-trening

Zastosowania

Alignment asystentów LLM (ChatGPT, Claude, Gemini, InstructGPT)Redukcja szkodliwych i niebezpiecznych odpowiedzi modeluDostrajanie modeli do przestrzegania instrukcji użytkownikaPersonalizacja tonu i stylu odpowiedzi modeluTrening modeli do streszczania tekstu zgodnego z preferencjami czytelnikaAlignment modeli generowania kodu (GitHub Copilot, CodeLlama)

Jak działa

RLHF składa się z trzech sekwencyjnych etapów:

1. Supervised Fine-Tuning (SFT): model bazowy jest dostrajany nadzorowanie na zbiorze par (prompt, odpowiedź) napisanych przez ludzi, tworząc politykę startową π_SFT.

2. Trening modelu nagrody: ludzcy adnotatorzy porównują pary odpowiedzi modelu na te same prompty i wybierają lepszą. Na tych porównaniach trenowany jest skalarny model nagrody r_φ(x, y) minimalizujący stratę Bradley-Terry: -E[log σ(r(x, y_w) − r(x, y_l))].

3. RL Fine-Tuning (PPO): polityka π_θ zainicjalizowana z SFT jest optymalizowana przez PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody r_φ, z karą za odchylenie od polityki referencyjnej π_SFT mierzoną dywergencją KL: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) ∥ π_SFT(y|x)). Współczynnik β zapobiega reward hackingowi — eksploatowaniu niedoskonałości modelu nagrody.

Rozwiązany problem

Uczenie złożonych zachowań AI zgodnych z intencjami i wartościami człowieka bez konieczności ręcznego definiowania funkcji nagrody. Klasyczne RL wymaga precyzyjnej, ręcznie zaprojektowanej nagrody — co jest niewykonalne dla zadań subiektywnych (np. generowania pomocnych, bezpiecznych i zgodnych z intencją odpowiedzi tekstowych). RLHF zastępuje tę funkcję modelem nagrody wytrenowanym na porównaniach preferencji zebranych od ludzi.

Komponenty

Supervised Fine-Tuning (SFT)Ustanowienie wstępnej polityki zdolnej do przestrzegania instrukcji na poziomie bazowym, zanim zostanie zastosowany sygnał preferencji.

Pierwszy etap RLHF: wstępne dostrajanie nadzorowane modelu bazowego na zbiorze demonstracji napisanych przez ludzi (pary prompt–odpowiedź). Wynikowy model π_SFT stanowi punkt startowy dla treningu RL i jest używany jako model referencyjny do obliczania kary KL.

Oficjalna

Model nagrody (Reward Model)Przekształcenie subiektywnych preferencji ludzkich w skalarny sygnał nagrody możliwy do optymalizacji przez algorytm RL.

Model skalarny r_φ(x, y) trenowany na parach porównań odpowiedzi zebranych od ludzkich adnotatorów. Uczy się przewidywać, którą odpowiedź człowiek by preferował, i dostarcza sygnał nagrody do etapu RL. Zwykle wykorzystuje model Bradley-Terry jako cel treningowy: minimalizuje -log σ(r(x, y_w) - r(x, y_l)), gdzie y_w to preferowana, a y_l odrzucona odpowiedź.

Oficjalna

Etap RL (PPO z karą KL)Optymalizacja polityki modelu w celu generowania odpowiedzi zgodnych z preferencjami ludzkimi przy zachowaniu stabilności generacji.

Trzeci etap RLHF: optymalizacja polityki π_θ za pomocą algorytmu PPO (Proximal Policy Optimization) w celu maksymalizacji nagrody z modelu nagrody, z jednoczesną karą za odchylenie od polityki referencyjnej (SFT). Cel: Objective(x, y) = r_φ(x, y) − β · KL(π_θ(y|x) || π_SFT(y|x)). Kara KL ze współczynnikiem β zapobiega reward hackingowi.

PPO (Proximal Policy Optimization)Domyślny algorytm RL w RLHF. Ogranicza aktualizacje polityki przez clipping lub penalizację KL w celu zapewnienia stabilności treningu.

A2C (Advantage Actor-Critic)Alternatywny algorytm RL zastosowany przez DeepMind w modelu Gopher/GopherCite zamiast PPO.

Oficjalna

Zbiór preferencji ludzkichPrzekazanie preferencji ludzkich do modelu nagrody w formie możliwej do uczenia maszynowego.

Zbiór danych zebranych od ludzkich adnotatorów, zawierający porównania par odpowiedzi modelu (y_w > y_l lub odwrotnie) dla tych samych promptów. Dane te są używane do treningu modelu nagrody. Jakość i spójność adnotatorów bezpośrednio wpływa na jakość wynikowego modelu nagrody.

Pairwise comparisons (rankingi par)Adnotatorzy wybierają lepszą z dwóch odpowiedzi. Najczęstsza forma zbierania preferencji w RLHF (stosowana w InstructGPT, Claude, Gemini).

Absolute ratings (oceny Likerta)Adnotatorzy oceniają odpowiedzi na skali liczbowej zamiast porównywać pary. Mniej powszechna, ale stosowana w niektórych podejściach.

Oficjalna

Implementacja

Implementacje referencyjne

TRL (Transformer Reinforcement Learning) – Hugging Face

Python · Hugging Face

Hugging Face RLHF Blog Post z przykładowym kodem

Python · Hugging Face

Pułapki implementacyjne

Reward hacking – eksploatacja słabości modelu nagrodyWysoka

Model polityki może nauczyć się generować odpowiedzi, które uzyskują wysokie oceny modelu nagrody, ale są rzeczywiście niskiej jakości: nadmiernie długie, repetytywne, schematyczne lub zawierające sformułowania, które model nagrody nauczył się nagradzać nieproporcjonalnie. Wynika z faktu, że model nagrody jest niedoskonałym proxy dla rzeczywistych preferencji ludzkich.

Rozwiązanie:Stosowanie kary KL (β) ograniczającej odchylenie od π_SFT. Regularne monitorowanie jakości generowanych odpowiedzi na zbiorze testowym przez ludzi. Ograniczenie liczby kroków PPO i monitorowanie skali nagród.

Niestabilność treningu PPOWysoka

Trening PPO jest wrażliwy na hiperparametry: współczynnik uczenia, wartość β kary KL, rozmiar batchów, zakres clippingu PPO i liczbę epok PPO na batch. Małe zmiany tych wartości mogą powodować dywergencję treningu lub zanik zdolności językowych modelu.

Rozwiązanie:Stosowanie sprawdzonych zakresów hiperparametrów (LR ~1e-6–1e-5, β ~0.01–0.1). Wdrożenie monitorowania nagrody, straty KL i próbek generowanych przez model na etapie treningu. Regularne checkpointowanie.

Niespójność i subiektywizm adnotatorówWysoka

Różni ludzcy adnotatorzy mogą mieć niespójne preferencje, co wprowadza szum do danych preferencji i obniża jakość modelu nagrody. Wpływ na wynik ma zarówno liczba adnotatorów, jak i klarowność wytycznych dla adnotatorów.

Rozwiązanie:Precyzyjne wytyczne adnotacyjne z przykładami. Filtrowanie adnotatorów na podstawie inter-annotator agreement. Wielokrotne adnotacje tego samego przykładu i agregacja. Stosowanie dodatkowych mechanizmów kontroli jakości (screening tests jak w InstructGPT).

Alignment tax – utrata zdolności bazowych modeluŚrednia

RLHF może powodować degradację wydajności modelu na standardowych benchmarkach NLP (alignment tax): model staje się bardziej pomocny i bezpieczny, ale może stracić część surowych zdolności językowych, jeśli β i LR nie są odpowiednio dobrane.

Rozwiązanie:Stosowanie PPO-ptx (mieszanie aktualizacji PPO z gradientami pre-treningu, jak w InstructGPT). Regularne ewaluowanie na benchmarkach zarówno podczas, jak i po treningu RL. Dokładne dostrajanie β.

Bardzo wysokie wymagania pamięci GPU podczas etapu PPOŚrednia

Etap RL wymaga jednoczesnego załadowania do pamięci GPU czterech modeli (polityka, referencja, model nagrody, model wartości). Dla modeli 7B parametrów to ~56 GB samych wag w fp16, co wymaga zaawansowanego zarządzania pamięcią (gradient checkpointing, offloading, DeepSpeed ZeRO).

Rozwiązanie:Stosowanie bibliotek takich jak TRL + DeepSpeed ZeRO-3. Gradient checkpointing dla modelu polityki. Offloading zamrożonych modeli (referencja, RM) na CPU gdy nie są aktywnie używane. Rozważenie DPO jako alternatywy wymagającej tylko dwóch modeli.

Ewolucja

Oryginalny paper · 2017 · NeurIPS 2017 (Advances in Neural Information Processing Systems 30) · Paul Christiano

Deep reinforcement learning from human preferences

Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei

2017

Christiano et al. definiują RLHF w kontekście głębokiego RL (NeurIPS 2017)

Punkt przełomowy

Paper 'Deep reinforcement learning from human preferences' wykazał, że ludzkie preferencje między segmentami trajektorii mogą efektywnie zastąpić funkcję nagrody w RL, umożliwiając naukę złożonych zachowań w środowiskach Atari i symulacjach robotycznych przy mniej niż 1% liczby interakcji z otoczeniem.

Deep reinforcement learning from human preferences (artykuł)

2020

Stiennon et al. (OpenAI) stosują RLHF do streszczania tekstu

Paper 'Learning to summarize with human feedback' rozszerzył RLHF na zadanie streszczania tekstu z użyciem GPT modeli, demonstrując przeniesienie techniki z zadań RL do zadań NLP z modelami językowymi.

Learning to summarize with human feedback (artykuł)

2022

InstructGPT (Ouyang et al., NeurIPS 2022) – RLHF jako standardowa metoda alignmentu LLM

Punkt przełomowy

Paper 'Training language models to follow instructions with human feedback' przedstawił pełny potok RLHF (SFT → RM Training → PPO) dla GPT-3, tworząc InstructGPT. Wykazał, że model 1.3B parametrów wytrenowany z RLHF jest preferowany przez ludzi nad modelem GPT-3 175B bez RLHF. Stał się fundamentem dla ChatGPT i dalszych systemów alignmentu LLM.

Training language models to follow instructions with human feedback (artykuł)

2022

ChatGPT (grudzień 2022) – szerokie wdrożenie RLHF w produktach konsumenckich

Punkt przełomowy

OpenAI wdrożyło RLHF w ChatGPT, który stał się pierwszym powszechnie stosowanym asystentem AI wytrenowanym z użyciem technik RLHF. Zapoczątkowało to powszechne stosowanie RLHF przez inne laboratoria (Anthropic, Google, Meta).

2023

Direct Preference Optimization (DPO) – matematycznie równoważna alternatywa dla RLHF bez RL

Punkt przełomowy

Rafailov et al. opublikowali DPO (arXiv:2305.18290), wykazując, że cel RLHF można zoptymalizować bezpośrednio przez jedną stratę nadzorowaną na parach preferencji, bez konieczności trenowania osobnego modelu nagrody i pętli PPO. DPO stał się popularną alternatywą dla RLHF, szczególnie w zastosowaniach o ograniczonych zasobach obliczeniowych.

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (artykuł)