Transformer

Self-Attention Model

ArchitekturaAktywny

Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 3

Transformer jest fundamentalną architekturą wszystkich współczesnych dużych modeli językowych, opartą na mechanizmie uwagi (attention) zaproponowanym w 2017 roku.

Jak działa

Self-attention pozwala na równoległe przetwarzanie sekwencji z uwzględnieniem wszystkich zależności.

Problem rozwiązywany

RNN/LSTM były wolne i nieefektywne dla długich sekwencji.

Kluczowe mechanizmy

self-attention

positional encoding

feed-forward layers

Ocena

Mocne strony

Równoległość
Długi kontekst
Skalowalność

Ograniczenia

Złożoność O(n²)
Wysokie wymagania pamięciowe

Wróć do katalogu konceptów