Powrót do katalogu

Transformer

Self-Attention • Attention Mechanism

ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 4
Transformer to architektura sieci neuronowych oparta na mechanizmie uwagi (attention), zaproponowana w 2017 roku. Stała się fundamentem wszystkich współczesnych dużych modeli językowych.

Jak działa

Transformer używa mechanizmu self-attention do równoległego przetwarzania sekwencji, co pozwala modelowi "widzieć" cały kontekst jednocześnie.

Problem rozwiązywany

Sekwencyjne przetwarzanie tekstu przez RNN było wolne i problematyczne dla długich sekwencji.

Kluczowe mechanizmy

self-attention
multi-head attention
positional encoding
feed-forward layers

Ocena

Mocne strony

  • Równoległość obliczeń
  • Długi kontekst
  • Skalowalność

Ograniczenia

  • Złożoność kwadratowa względem sekwencji
  • Wysokie wymagania pamięciowe

Powiązania