Powrót do katalogu

MoE

MoE • Sparse MoE

ArchitekturaAktywny
Rok wprowadzenia: 2017Status: AktywnyMechanizmy: 4
Mixture of Experts to technika, w której model składa się z wielu "ekspertów" – mniejszych podsieci. Mechanizm bramkowania wybiera, które eksperci przetwarzają dany token.

Jak działa

Router decyduje, które eksperci (zwykle 2-8 z kilkudziesięciu) przetwarzają każdy token, co redukuje rzeczywiste obliczenia.

Problem rozwiązywany

Skalowanie gęstych modeli wymaga ogromnych zasobów obliczeniowych proporcjonalnych do liczby parametrów.

Kluczowe mechanizmy

gating mechanism
top-k routing
load balancing
expert specialization

Ocena

Mocne strony

  • Wydajność obliczeniowa
  • Skalowalność
  • Specjalizacja ekspertów

Ograniczenia

  • Trudny trening
  • Load balancing
  • Wymagania pamięciowe

Powiązania