Robocikowo>ROBOCIKOWO
Trening

Foundation Model

2021AktywnyOpublikowany
Model wstępnie trenowany na dużą skalę na szerokich, zazwyczaj nieoznakowanych danych, adaptowalny do wielu zadań downstream.
Kluczowa innowacja
Pojedynczy model trenowany na dużą skalę na szerokich danych ogólnego przeznaczenia, adaptowany następnie do wielu zadań bez trenowania od zera.
Kategoria
Trening
Poziom abstrakcji
Paradigm
Zastosowania
Modele językowe (LLM)Generacja obrazuMultimodalne rozumienieRobotyka (foundation models do manipulacji i sterowania)Wyszukiwanie i retrievalWbudowanie i embeddings

Jak działa

1) Pretraining: model uczy się ogólnych reprezentacji na bardzo dużym, różnorodnym korpusie (najczęściej self-supervised, np. predykcja następnego tokena, masked language modeling, contrastive learning). 2) Adaptacja: ten sam model jest dostosowywany do konkretnych zadań przez fine-tuning, instruction tuning, RLHF, prompting lub adaptery (LoRA). Skala (parametrów, danych, obliczeń) prowadzi do 'emergent capabilities' – zdolności nieobecnych w mniejszych modelach.

Rozwiązany problem

Eliminuje konieczność trenowania osobnego modelu od zera dla każdego zadania – jeden duży, ogólny model adaptuje się do wielu zastosowań niskim kosztem.

Ewolucja

Oryginalny paper · 2021 · arXiv:2108.07258 (Stanford CRFM report) · Rishi Bommasani
On the Opportunities and Risks of Foundation Models
Rishi Bommasani, Percy Liang, Stanford CRFM (et al.)
2018
BERT i GPT – pretraining + fine-tuning jako wzorzec NLP
Punkt przełomowy

BERT (Google) i GPT (OpenAI) ustanowiły schemat 'pretrain-then-adapt' jako standard w NLP.

2020
GPT-3 i emergent capabilities
Punkt przełomowy

GPT-3 pokazał, że skalowanie powoduje pojawianie się zdolności few-shot bez fine-tuningu.

2021
Stanford CRFM ukuwa termin 'foundation model'
Punkt przełomowy

Raport Bommasani i in. formalizuje paradygmat i wprowadza nazwę.

2022
Multimodalne foundation models (CLIP, DALL-E, Flamingo)

Rozszerzenie paradygmatu poza tekst – obraz, wideo, audio.

2023
Robotyczne foundation models (RT-2, RT-X)

Google DeepMind przenosi paradygmat do robotyki łącząc VLM z manipulacją.

2024
Open-weight foundation models (Llama 3, Mistral)

Otwarte wagi konkurencyjne wobec modeli zamkniętych.