Mixture of Experts (MoE) — architektura, która pozwala budować coraz większe modele AI bez proporcjonalnego wzrostu kosztów obliczeniowych

Mixture of Experts (MoE) to architektura sieci neuronowych, w której model nie przetwarza każdego zapytania wszystkimi swoimi parametrami naraz, lecz dynamicznie deleguje obliczenia do wybranych, wyspecjalizowanych podsieci zwanych ekspertami. Należy do kategorii rozwiązań architektonicznych dla dużych modeli językowych (LLM) i jest dziś powszechnie stosowana w czołowych modelach — zarówno komercyjnych, jak i open-source. Warto ją rozumieć, bo wyjaśnia, dlaczego nowoczesne modele mogą mieć setki miliardów parametrów, a jednocześnie działać szybciej i taniej niż ich gęste odpowiedniki o podobnej jakości.

Najważniejsze w skrócie

MoE to architektura, nie model ani platforma — to podejście do budowania sieci neuronowych
Zamiast aktywować wszystkie parametry dla każdego wejścia, MoE wybiera tylko podzbiór wyspecjalizowanych „ekspertów"
Kluczowym elementem jest router (gating network) — lekka sieć, która decyduje, który ekspert obsłuży dany token
Architektura ta umożliwia skalowanie pojemności modelu bez proporcjonalnego wzrostu kosztów obliczeniowych
Stosowana w modelach takich jak DeepSeek-V3, Mixtral, Llama 4, a prawdopodobnie też GPT-4
MoE ma istotne ograniczenia: niestabilność routingu, ryzyko „zapaści ekspertów" oraz trudności z wdrożeniem produkcyjnym

Czym jest Mixture of Experts?

MoE to architektura sieci neuronowej — nie gotowy produkt, nie platforma, nie samodzielny model. To sposób organizacji obliczeń wewnątrz modelu, który wyróżnia się od klasycznych, „gęstych" sieci neuronowych jedną zasadniczą cechą: warunkową aktywnością parametrów.

W standardowej (gęstej) sieci neuronowej każde wejście jest przetwarzane przez wszystkie warstwy i wszystkie parametry. W architekturze MoE natomiast model zawiera wiele specjalistycznych bloków obliczeniowych — ekspertów — ale dla każdego fragmentu danych (np. każdego tokenu w zdaniu) aktywuje tylko kilku z nich. Reszta pozostaje w tej chwili nieaktywna. Dzięki temu model może mieć ogromną łączną liczbę parametrów, ale koszty obliczeniowe jednego przejścia przez sieć pozostają kontrolowane.

Jak opisuje blog techniczny Nvidia, MoE to wzorzec architektoniczny, w którym warstwa sieci neuronowej jest podzielona na wiele wyspecjalizowanych podsieci, a router — mała sieć uczona razem z całością — decyduje, które z nich obsłużą dane wejście.

MoE nie jest:

modelem językowym (jest architekturą, którą modele językowe mogą stosować)
platformą ani frameworkiem
systemem operacyjnym dla AI
techniką wyłącznie dla NLP — stosuje się ją też w widzeniu komputerowym i zadaniach multimodalnych

Kto za nią stoi?

Koncepcja MoE sięga 1991 roku — artykuł „Adaptive Mixtures of Local Experts" autorstwa Roberta Jacobsa, Michaela Jordana, Stevena Nowlana i Geoffreya Hintona opisał ideę podziału zadań między wyspecjalizowane podsieci zarządzane przez mechanizm bramkowania. Przez kolejne lata idea pozostawała głównie akademicka, ograniczona przez moc obliczeniową i brak skalowalnych metod trenowania.

Noam Shazeer i współpracownicy z Google zaproponowali w 2017 roku warstwę MoE z rzadkim bramkowaniem (sparsely-gated MoE layer) dla rekurencyjnych sieci neuronowych, co jest uznawane za kluczowy krok przybliżający MoE do praktycznych zastosowań. W 2020 roku Google opublikowało GShard — wielojęzyczny model z 600 miliardami parametrów, który jako jeden z pierwszych pokazał, że MoE działa w skali bilionowej. Rok później Switch Transformer (Google, 2021) uproszczono algorytm routingu i osiągnięto pierwszy model o rozmiarze biliona parametrów. W tym samym czasie GLaM (Google, 2021) skalował się do 1,2 biliona parametrów.

Prawdziwy przełom w dostępności nastąpił w grudniu 2023, gdy firma Mistral AI opublikowała otwarte wagi Mixtral 8x7B — pierwszego publicznie dostępnego, praktycznego modelu MoE o wysokiej jakości. Otworzyło to lawinę: w ciągu kilku miesięcy pojawiły się DeepSeekMoE, DBRX, Grok-1, Qwen1.5-MoE i wiele innych. Badania nad architekturą są dziś prowadzone przez dziesiątki instytutów badawczych i firm — ByteDance, Meta, Alibaba, Tencent i wiele innych. Przegląd opublikowany w grudniu 2025 (arXiv:2507.11181) przez naukowców z ByteDance, Imperial College London, Purdue University i innych instytucji stanowi jedno z najbardziej kompleksowych zestawień stanu wiedzy o tej architekturze.

Jak działa MoE?

Podstawowa idea

Wyobraź sobie firmę doradczą z setką specjalistów, ale każdy projekt trafia tylko do dwóch lub trzech z nich — tych najlepiej dopasowanych do konkretnego problemu. Reszta w tym czasie nie pracuje nad tym zadaniem. Cała wiedza firmy jest dostępna, ale nie każdy musi uczestniczyć w każdej rozmowie.

Dokładnie tak działa MoE: model ma pulę ekspertów (zwykle są to niezależne moduły feedforward — FFN), a specjalny mechanizm routingu dla każdego tokenu wejściowego decyduje, które z nich zostaną uruchomione.

Mechanizm bramkowania (routing/gating)

Router to mała sieć neuronowa uczona razem z całym modelem. Dla każdego tokenu oblicza wynik trafności (ang. relevance score) dla każdego eksperta, a następnie wybiera najlepiej dopasowanych — zazwyczaj dwóch (top-2 routing). Wyniki wybranych ekspertów są ważone i agregowane w jeden wynik wyjściowy.

Matematycznie wyjście warstwy MoE to:

$y = \sum i = 1 N g i (x) \cdot E i (x) y = \sum_{i = 1}^{N} g_{i} (x) \cdot E_{i} (x) y = i = 1 \sum N g i (x) \cdot E i (x)$

gdzie $g i (x)$ $g_{i} (x)$ $g i (x)$ to waga (niezerowa tylko dla wybranych ekspertów), a $E i (x)$ $E_{i} (x)$ $E i (x)$ to wynik i-tego eksperta dla wejścia $xx$ $x$ . Wartości $g i g_{i}$ $g i$ dla niewybranych ekspertów wynoszą $0$ , co oznacza, że nie biorą oni udziału w obliczeniach.

Aby zapobiec sytuacji, w której router zawsze wybiera te same eksperci (zjawisko „zapaści ekspertów"), dodaje się do procesu szum gaussowski (Noisy Top-k routing) i dodatkowe straty balansujące obciążenie.

Architektura w kontekście transformera

W praktyce MoE nie zastępuje całego modelu — zamiast tego zastępuje standardowe warstwy feedforward (FFN) w transformer. Mechanizm self-attention pozostaje bez zmian. Warstwa MoE wygląda tak:

Token trafia do routera — router oblicza wyniki trafności dla każdego eksperta
Router wybiera k najlepszych ekspertów — zazwyczaj 2 z puli np. 8
Wybrani eksperci przetwarzają token równolegle — każdy niezależnie, w tym samym czasie
Wyniki są ważone i agregowane — router decyduje też, z jaką wagą połączyć odpowiedzi ekspertów

W modelach takich jak Mixtral 8x7B każda warstwa FFN zawiera 8 ekspertów, z czego na token aktywne są 2.

Z jakich elementów się składa?

Architektura MoE składa się z kilku kluczowych komponentów:

Eksperci (experts) — wyspecjalizowane sieci neuronowe, zazwyczaj niezależne moduły FFN. Każdy ekspert może specjalizować się w pewnym aspekcie danych: niektóre modele wykazują, że eksperci spontanicznie uczą się koncentrować na różnych klasach gramatycznych, domenach tematycznych lub właściwościach wejścia.
Router (gating network) — sieć wyuczona, która przypisuje tokeny do ekspertów. Może działać w trybie Token Choice (każdy token wybiera swoich ekspertów) lub Expert Choice (każdy ekspert wybiera tokeny do przetworzenia). Oba podejścia mają różne charakterystyki pod względem efektywności obliczeniowej i jakości.
Mechanizm balansowania obciążenia (load balancing) — dodatkowa funkcja straty (auxiliary loss) w procesie trenowania, która zapobiega sytuacji, w której tylko kilka ekspertów otrzymuje większość zadań.
Warianty hierarchiczne — zaawansowane implementacje (np. H-MoE) stosują dwuetapowy routing: najpierw wybiera się grupę ekspertów, potem konkretny ekspert w tej grupie. Umożliwia to specjalizację na wielu poziomach abstrakcji.
Warianty adaptacyjne — liczba aktywowanych ekspertów może być dynamicznie dobierana w zależności od złożoności wejścia.

Do czego może być używana?

Architektura MoE jest stosowana przede wszystkim w dużych modelach językowych, ale jej zastosowania wykraczają znacznie poza NLP:

Duże modele językowe (LLM) — to główna arena zastosowań. Modele jak DeepSeek-V3 (685B parametrów łącznie, ~37B aktywnych), Mixtral 8x7B/8x22B, Llama 4 od Meta, Qwen3-MoE — wszystkie te systemy korzystają z MoE, by osiągać wysoką jakość przy niższym koszcie wnioskowania niż równoważne modele gęste.

Tłumaczenie maszynowe — GShard od Google był pierwotnie stworzony właśnie do obsługi 100 języków z minimalnym kosztem obliczeniowym.
Modele multimodalne — LIMoE, MoE-LLaVA, DeepSeek-VL2 stosują MoE do jednoczesnej obsługi tekstu i obrazu, routując różne modalności do wyspecjalizowanych ekspertów.
Widzenie komputerowe — V-MoE od Google i Swin-MoE wykazały, że rzadka aktywacja ekspertów poprawia klasyfikację obrazów przy niższym koszcie niż modele gęste.
Systemy rekomendacyjne — frameworki takie jak M3oE stosują MoE do personalizacji rekomendacji w środowiskach wielodomenowych.
Ochrona zdrowia — eksperymentalne modele jak Med-MoE i MoE-Health wykorzystują MoE do obsługi heterogenicznych danych medycznych: dokumentacji elektronicznej, zdjęć klinicznych i notatek lekarskich łącznie.
Obliczenia naukowe — MoE jest stosowane eksperymentalnie w modelowaniu klimatu, odkrywaniu leków i przewidywaniu struktury białek.

Czym różni się od innych rozwiązań?

MoE vs. dense transformer (model gęsty)

Standardowy model gęsty (np. Llama 2 70B) aktywuje wszystkie parametry dla każdego tokenu. Model MoE o podobnej łącznej liczbie parametrów aktywuje tylko ich część — zazwyczaj 10–30%. Jak wynika z prac cytowanych w przeglądzie z 2025 roku, modele MoE osiągają porównywalną jakość do gęstych modeli przy aktywowaniu około 10 razy mniej parametrów per token.

Dla użytkownika oznacza to: model ma większą pojemność (więcej wiedzy zakodowanej w parametrach), ale wnioskowanie jest szybsze i tańsze. Koszt to wyższe wymagania pamięciowe (wszystkie parametry muszą być załadowane) i bardziej skomplikowane wdrożenie.

MoE vs. ensemble (zestaw modeli)

Klasyczny ensemble (zestaw kilku modeli, których wyniki są uśredniane) aktywuje wszystkie modele dla każdego wejścia. MoE aktywuje tylko wybranych ekspertów — to zasadnicza różnica w efektywności. Ensemble wymaga też niezależnego trenowania wielu modeli. Eksperci MoE trenowani są wspólnie.

MoE vs. Bayesian ensemble

W ensemblach bayesowskich niepewność rozkłada się na wiele modeli i jest agregowana. W MoE decyzja o wyborze eksperta jest twarda (dyskretna) — token trafia do konkretnych ekspertów, nie do ważonej mieszaniny wszystkich. To różnica filozoficzna: MoE deleguje, a nie agreguje przez niepewność. Ma to konsekwencje dla zachowania modelu w przypadkach granicznych.

MoE vs. LoRA i adapter-based fine-tuning

LoRA to technika dostrajania (fine-tuning) istniejącego modelu przy minimalnej liczbie parametrów do aktualizacji. MoE to natomiast architektura bazowa — decyduje o strukturze modelu przed jakimkolwiek dostrajaniem. Obie techniki nie wykluczają się: istnieją metody jak LoRA-MoE, które łączą oba podejścia, adaptując tylko wybrane eksperty przy minimalnym koszcie.

Najważniejsze ograniczenia, wyzwania

Zapaść ekspertów (expert collapse) — najgroźniejszy problem szkoleniowy. Router może się nauczyć zawsze preferować kilku ekspertów, pozostawiając innych bez wejść i uniemożliwiając im specjalizację. Mechanizmy balansowania obciążenia łagodzą to zjawisko, ale nie eliminują go całkowicie.
Reprezentacyjna jednorodność — badania nad Mixtral 8x7B, DeepSeekMoE i Grok-1 wskazują, że eksperci mogą konwergować do niemal identycznych reprezentacji (podobieństwo powyżej 99% w niektórych eksperymentach). To podważa założenie o komplementarnej specjalizacji i jest problemem nawet w dobrze działających modelach.
Wymagania pamięciowe — choć MoE redukuje koszty obliczeniowe, wszystkie parametry wszystkich ekspertów muszą być załadowane do pamięci GPU. Model o 685 miliardach parametrów (jak DeepSeek-V3) wymaga znacznie więcej pamięci RAM GPU niż 37-miliardowy model gęsty o porównywalnej jakości wnioskowania.
Nieregularne wzorce dostępu do pamięci — rzadka aktywacja ekspertów oznacza nieregularne, trudne do optymalizacji ścieżki obliczeń, co prowadzi do podwyższonych opóźnień i niewykorzystania sprzętu.
Niestabilność routingu — mechanizm bramkowania jest wrażliwy na inicjalizację i hiperparametry. Zbyt pewny siebie router prowadzi do zapaści; zbyt równomierny traci specjalizację. Dobór właściwej konfiguracji wymaga eksperymentów.
Brak standaryzowanych metod oceny — standardowe benchmarki dla LLM nie są dobrze dostosowane do specyfiki MoE. Framework MoE-CAP (model accuracy, application performance, deployment cost) jest próbą stworzenia wielowymiarowej oceny, ale nie jest jeszcze powszechnym standardem.
Słabe podstawy teoretyczne — mimo imponujących wyników empirycznych teoria stojąca za MoE pozostaje fragmentaryczna. Nie ma formalnego modelu pozwalającego z góry określić optymalną liczbę ekspertów, sparsity czy strategię bramkowania dla konkretnego zadania.
Trudności z wdrożeniem — stochastyczna natura routingu prowadzi do niestabilnego batchowania i słabej reprodukowalności wyników. Środowiska produkcyjne o niskich opóźnieniach wymagają specjalnych strategii wdrożeniowych.

Dlaczego ta technologia jest istotna?

MoE rozwiązuje jeden z fundamentalnych dylematów współczesnej AI: jak budować coraz bardziej zdolne modele bez proporcjonalnego wzrostu kosztów obliczeniowych? Odpowiedź, którą daje ta architektura, jest elegancka — zamiast eskalować koszty liniowo z parametrami, oddziela pojemność modelu od kosztu wnioskowania.

Ma to konkretne konsekwencje rynkowe. Kiedy DeepSeek opublikował DeepSeek-V3 — model MoE z 685 miliardami parametrów łącznie i tylko 37 miliardami aktywnych — osiągnął wyniki porównywalne z czołowymi zamkniętymi modelami przy ułamku kosztów trenowania typowych dla podobnej skali. To nie jest kwestia jednej firmy: podobne obserwacje dotyczą Mistrala (Mixtral 8x7B, który przy 13 miliardach aktywnych parametrów przebił Meta Llama-2 70B na wielu benchmarkach), jak i Google (Gemini 2.0 Flash), Meta (Llama 4) czy Anthropic (Claude 3.5 Sonnet).

MoE to też architektura szczególnie istotna dla scenariuszy wielozadaniowych i multimodalnych — sytuacji, gdy jeden model musi obsługiwać tekst, obraz, kod i inne dane jednocześnie. Modułowość ekspertów pozwala przypisywać różne zadania do różnych specjalistów wewnątrz jednej sieci, zamiast wymuszać na całym modelu jednolite zachowanie. Na obecnym etapie to jeden z najważniejszych czynników kształtujących kierunek rozwoju dużych modeli fundamentalnych. Warto jednak podkreślić, że MoE nie rozwiązuje wszystkich problemów skalowalności — przenosi je raczej z wymiaru obliczeniowego do wymiaru pamięciowego i inżynieryjnego.

Podsumowanie

Mixture of Experts to architektura sieci neuronowej — nie model, nie platforma, nie framework — która umożliwia skalowanie modeli AI bez proporcjonalnego wzrostu kosztów obliczeniowych. Jej siłą jest warunkowa aktywacja parametrów: router decyduje, którzy eksperci obsłużą dane wejście, reszta pozostaje w danej chwili nieaktywna. Architektura ta jest dziś stosowana w większości czołowych dużych modeli językowych i stanowi jeden z kluczowych mechanizmów pozwalających zwiększać zdolności modeli bez absurdalnych nakładów energetycznych i finansowych. Jednocześnie niesie ze sobą nierozwiązane do końca wyzwania — od niestabilności routingu po brak dobrych teoretycznych podstaw — co sprawia, że badania nad nią pozostają bardzo aktywnym obszarem pracy badawczej i inżynieryjnej.

Źródła

arXiv – Zhang et al., „Mixture of Experts in Large Language Models" (arXiv:2507.11181v2, 2025) – https://arxiv.org/abs/2507.11181
Cameron R. Wolfe, „Mixture-of-Experts (MoE) LLMs" – https://cameronrwolfe.substack.com/p/moe-llms
arXiv – Dai et al., „DeepSeekMoE: Towards Ultimate Expert Specialization" (arXiv:2401.06066, 2024) – https://arxiv.org/abs/2401.06066
arXiv – Fedus, Zoph, Shazeer, „Switch Transformers" (JMLR, 2022) – https://arxiv.org/abs/2101.03961
Nvidia Technical Blog – „Applying Mixture of Experts in LLM Architectures" – https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
IntuitionLabs – „Understanding Mixture of Experts (MoE) Neural Networks" – https://intuitionlabs.ai/articles/mixture-of-experts-moe-models
AI Wiki – „Mixtral" (historia i architektura MoE) – https://aiwiki.ai/wiki/mixtral