RLHF
RLHF • Reinforcement Learning from Human Feedback
TreningAktywny
Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 4
RLHF to technika dopasowania modeli językowych do ludzkich preferencji. Ludzie oceniają odpowiedzi modelu, na podstawie czego trenowany jest model nagrody, a następnie sam model językowy.
Jak działa
Trening w trzech etapach: supervised fine-tuning, trenowanie reward model na rankingach ludzkich, optymalizacja LLM przez RL (PPO).
Problem rozwiązywany
Modele pre-trenowane nie zawsze generują odpowiedzi zgodne z ludzką intencją i wartościami.
Kluczowe mechanizmy
reward model
PPO
human preference ranking
KL divergence penalty
Ocena
Mocne strony
- Lepsza użyteczność
- Redukcja szkodliwych outputów
- Dopasowanie do wartości
Ograniczenia
- Kosztowny ludzki feedback
- Reward hacking
- Skalowanie
