Architektura
GLU
2016Aktualizacja: 4 maja 2026
Wariant warstwy feed-forward w Transformerach: wyjscie to iloczyn Hadamarda dwoch projekcji liniowych — jednej bramkowanej aktywacja (np. SiLU, GELU). Stosowany jako SwiGLU w LLaMA, Mistral, DBRX i wielu innych.
Kluczowa
innowacja
Zastepuje klasyczna warstwe FFN Transformera przez iloczyn bramkowany dwoch projekcji liniowych, co zwieksza zdolnosc modelowania przy tej samej liczbie parametrow.
Kategoria
Architektura
Poziom abstrakcji
Primitive