Trening

Foundation Model

2021AktywnyOpublikowany

Model wstępnie trenowany na dużą skalę na szerokich, zazwyczaj nieoznakowanych danych, adaptowalny do wielu zadań downstream.

Kluczowa innowacja

Pojedynczy model trenowany na dużą skalę na szerokich danych ogólnego przeznaczenia, adaptowany następnie do wielu zadań bez trenowania od zera.

Kategoria

Trening

Poziom abstrakcji

Paradigm

Zastosowania

Modele językowe (LLM)Generacja obrazuMultimodalne rozumienieRobotyka (foundation models do manipulacji i sterowania)Wyszukiwanie i retrievalWbudowanie i embeddings

Jak działa

1) Pretraining: model uczy się ogólnych reprezentacji na bardzo dużym, różnorodnym korpusie (najczęściej self-supervised, np. predykcja następnego tokena, masked language modeling, contrastive learning). 2) Adaptacja: ten sam model jest dostosowywany do konkretnych zadań przez fine-tuning, instruction tuning, RLHF, prompting lub adaptery (LoRA). Skala (parametrów, danych, obliczeń) prowadzi do 'emergent capabilities' – zdolności nieobecnych w mniejszych modelach.

Rozwiązany problem

Eliminuje konieczność trenowania osobnego modelu od zera dla każdego zadania – jeden duży, ogólny model adaptuje się do wielu zastosowań niskim kosztem.