Mixtral 8x7B

8x7B v0.1 · Rodzina: Mistral

Otwartowagowy model Sparse Mixture-of-Experts od Mistral AI: 46,7 mld parametrów (12,9 mld aktywnych na token), okno 32K, licencja Apache 2.0.

⚠ Deprecated✓ Publiczny dostęp⚖ Open sourceLLM📁 Mistral

Okno kontekstowe

32K

tokenów

Parametry

46.7B total / 12.9B active

parametrów

Data premiery

11 grudnia 2023

🏢Mistral AIProducent

Dostęp:APIDownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Mixtral 8x7B to model dekoder-only oparty na architekturze Sparse Mixture-of-Experts (SMoE), wydany przez Mistral AI 11 grudnia 2023 r. na licencji Apache 2.0. Na każdej warstwie i dla każdego tokenu sieć router wybiera 2 z 8 grup ekspertów w bloku feed-forward i sumuje ich wyjścia. Daje to 46,7 mld parametrów łącznie, ale jedynie ok. 12,9 mld aktywnych na token, co utrzymuje koszt i opóźnienie inferencji na poziomie modelu 12,9 mld parametrów.

Model obsługuje okno kontekstu 32 tys. tokenów oraz pięć języków: angielski, francuski, włoski, niemiecki i hiszpański. W wariancie Instruct (dostrojonym przez SFT i DPO) osiąga 8,30 punktu na MT-Bench. Mixtral 8x7B był udostępniany przez API Mistral pod nazwą open-mixtral-8x7b i można było pobrać jego wagi. Od 30 listopada 2024 r. jest oznaczony jako deprecated, a od 30 marca 2025 r. wycofany z API Mistral.

Klasyfikacja

LLM

Rodzina: Mistral

Dostęp i wdrożenie

APIPobieranie

LokalnieChmura

Wagi: Open source

Kluczowe parametry

📏 Kontekst: 32K

🧩 Parametry: 46.7B total / 12.9B active

✓ Fine-tuning

📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe

32K

tokenów

Parametry

46.7B total / 12.9B active

parametrów

Licencja

Apache 2.0

Funkcje:✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Modelowanie języka

Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.

Kategoria: language

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning