Trening

RFT

2023AktywnyOpublikowano: 3 maja 2026Aktualizacja: 3 maja 2026Opublikowany

Technika post-trainingu używająca uczenia ze wzmocnieniem do dostrajania modelu na zadaniach domenowych według mierzalnej nagrody.

Kluczowa innowacja

Fine-tunes a pre-trained model on domain-specific tasks using reinforcement learning rewards, improving task accuracy without general RLHF preference alignment.

Kategoria

Trening

Poziom abstrakcji

Pattern

Zastosowania

Domain-specific model specializationScientific reasoningCode generation optimizationMedical diagnosis assistance

Jak działa

Model jest uruchamiany na zbiorze zadań domenowych. Każda odpowiedź jest oceniana przez obiektywny scorer. Gradient policy (np. PPO lub GRPO) jest obliczany na podstawie nagrody i używany do aktualizacji wag modelu. Iteracja powtarzana aż do zbieżności.

Rozwiązany problem

Ogólne modele RLHF są wyśmienite w rozumieniu instrukcji, ale nie są zoptymalizowane pod konkretne zadania z mierzalnym wynikiem. RFT rozwiązuje lukę między ogólną pomocnością a specjalistyczną dokładnością.

Ewolucja

Oryginalny paper · 2024 · arXiv 2024 · Aviral Kumar

Training Language Models to Self-Correct via Reinforcement Learning

Aviral Kumar, Vincent Zhuang, Rishabh Agarwal

Źródła

Reinforcement Fine-Tuning | OpenAI API

Dokumentacja

OpenAI