Transformer
Self-Attention Model
ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 3
Transformer jest fundamentalną architekturą wszystkich współczesnych dużych modeli językowych, opartą na mechanizmie uwagi (attention) zaproponowanym w 2017 roku.
Jak działa
Self-attention pozwala na równoległe przetwarzanie sekwencji z uwzględnieniem wszystkich zależności.
Problem rozwiązywany
RNN/LSTM były wolne i nieefektywne dla długich sekwencji.
Kluczowe mechanizmy
self-attention
positional encoding
feed-forward layers
Ocena
Mocne strony
- Równoległość
- Długi kontekst
- Skalowalność
Ograniczenia
- Złożoność O(n²)
- Wysokie wymagania pamięciowe