Foundation Model
Jak działa
1) Pretraining: model uczy się ogólnych reprezentacji na bardzo dużym, różnorodnym korpusie (najczęściej self-supervised, np. predykcja następnego tokena, masked language modeling, contrastive learning). 2) Adaptacja: ten sam model jest dostosowywany do konkretnych zadań przez fine-tuning, instruction tuning, RLHF, prompting lub adaptery (LoRA). Skala (parametrów, danych, obliczeń) prowadzi do 'emergent capabilities' – zdolności nieobecnych w mniejszych modelach.
Rozwiązany problem
Eliminuje konieczność trenowania osobnego modelu od zera dla każdego zadania – jeden duży, ogólny model adaptuje się do wielu zastosowań niskim kosztem.
Ewolucja
BERT (Google) i GPT (OpenAI) ustanowiły schemat 'pretrain-then-adapt' jako standard w NLP.
GPT-3 pokazał, że skalowanie powoduje pojawianie się zdolności few-shot bez fine-tuningu.
Raport Bommasani i in. formalizuje paradygmat i wprowadza nazwę.
Rozszerzenie paradygmatu poza tekst – obraz, wideo, audio.
Google DeepMind przenosi paradygmat do robotyki łącząc VLM z manipulacją.
Otwarte wagi konkurencyjne wobec modeli zamkniętych.