Powrót do katalogu

RLHF

RLHF • Reinforcement Learning from Human Feedback

TreningAktywny
Rok wprowadzenia: 2020Status: AktywnyMechanizmy: 4
RLHF to technika dopasowania modeli językowych do ludzkich preferencji. Ludzie oceniają odpowiedzi modelu, na podstawie czego trenowany jest model nagrody, a następnie sam model językowy.

Jak działa

Trening w trzech etapach: supervised fine-tuning, trenowanie reward model na rankingach ludzkich, optymalizacja LLM przez RL (PPO).

Problem rozwiązywany

Modele pre-trenowane nie zawsze generują odpowiedzi zgodne z ludzką intencją i wartościami.

Kluczowe mechanizmy

reward model
PPO
human preference ranking
KL divergence penalty

Ocena

Mocne strony

  • Lepsza użyteczność
  • Redukcja szkodliwych outputów
  • Dopasowanie do wartości

Ograniczenia

  • Kosztowny ludzki feedback
  • Reward hacking
  • Skalowanie

Powiązania