RLHF

RLHF • Reinforcement Learning from Human Feedback

TreningAktywny

Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 4

RLHF to technika dopasowania modeli językowych do ludzkich preferencji. Ludzie oceniają odpowiedzi modelu, na podstawie czego trenowany jest model nagrody, a następnie sam model językowy.

Jak działa

Trening w trzech etapach: supervised fine-tuning, trenowanie reward model na rankingach ludzkich, optymalizacja LLM przez RL (PPO).

Problem rozwiązywany

Modele pre-trenowane nie zawsze generują odpowiedzi zgodne z ludzką intencją i wartościami.

Kluczowe mechanizmy

reward model

PPO

human preference ranking

KL divergence penalty

Ocena

Mocne strony

Lepsza użyteczność
Redukcja szkodliwych outputów
Dopasowanie do wartości

Ograniczenia

Kosztowny ludzki feedback
Reward hacking
Skalowanie

Powiązania

Powiązane modele

TEST Claude 4 Opus [TESTOWY]

TEST Claude Family

Wróć do katalogu konceptów