Instruction Tuning

InstructGPT • SFT • Supervised Fine-Tuning

TreningAktywny

Rok wprowadzenia: 2021Status: AktywnyMechanizmy: 3

Instruction tuning to technika fine-tuningu, w której pre-trenowany model jest dalej trenowany na parach (instrukcja, odpowiedź), aby lepiej podążać za poleceniami użytkownika.

Jak działa

Model jest fine-tunowany na zestawie danych zawierającym różnorodne zadania sformułowane jako instrukcje z oczekiwanymi odpowiedziami.

Problem rozwiązywany

Pre-trenowane modele nie są naturalnie dostosowane do podążania za instrukcjami w stylu chatbota.

Kluczowe mechanizmy

SFT datasets

diverse task formats

template-based training

Ocena

Mocne strony

Prostota implementacji
Lepsza zero-shot performance
Generalizacja do nowych zadań

Ograniczenia

Zależność od jakości danych
Ograniczone alignment bez RLHF

Powiązania

Powiązane modele

TEST Claude 4 Opus [TESTOWY]

TEST Claude Family

Wróć do katalogu konceptów