Trening
RFT
2023AktywnyOpublikowano: 3 maja 2026Aktualizacja: 3 maja 2026Opublikowany
Technika post-trainingu używająca uczenia ze wzmocnieniem do dostrajania modelu na zadaniach domenowych według mierzalnej nagrody.
Kluczowa
innowacja
Fine-tunes a pre-trained model on domain-specific tasks using reinforcement learning rewards, improving task accuracy without general RLHF preference alignment.
Kategoria
Trening
Poziom abstrakcji
Pattern
Zastosowania
Domain-specific model specializationScientific reasoningCode generation optimizationMedical diagnosis assistance
Jak działa
Model jest uruchamiany na zbiorze zadań domenowych. Każda odpowiedź jest oceniana przez obiektywny scorer. Gradient policy (np. PPO lub GRPO) jest obliczany na podstawie nagrody i używany do aktualizacji wag modelu. Iteracja powtarzana aż do zbieżności.
Rozwiązany problem
Ogólne modele RLHF są wyśmienite w rozumieniu instrukcji, ale nie są zoptymalizowane pod konkretne zadania z mierzalnym wynikiem. RFT rozwiązuje lukę między ogólną pomocnością a specjalistyczną dokładnością.