Instruction Tuning
InstructGPT • SFT • Supervised Fine-Tuning
TreningAktywny
Rok wprowadzenia: 2021Status: AktywnyMechanizmy: 3
Instruction tuning to technika fine-tuningu, w której pre-trenowany model jest dalej trenowany na parach (instrukcja, odpowiedź), aby lepiej podążać za poleceniami użytkownika.
Jak działa
Model jest fine-tunowany na zestawie danych zawierającym różnorodne zadania sformułowane jako instrukcje z oczekiwanymi odpowiedziami.
Problem rozwiązywany
Pre-trenowane modele nie są naturalnie dostosowane do podążania za instrukcjami w stylu chatbota.
Kluczowe mechanizmy
SFT datasets
diverse task formats
template-based training
Ocena
Mocne strony
- Prostota implementacji
- Lepsza zero-shot performance
- Generalizacja do nowych zadań
Ograniczenia
- Zależność od jakości danych
- Ograniczone alignment bez RLHF
