Robocikowo>ROBOCIKOWO
Mixtral 8x7B

Mixtral 8x7B

8x7B v0.1 · Rodzina: Mistral
Otwartowagowy model Sparse Mixture-of-Experts od Mistral AI: 46,7 mld parametrów (12,9 mld aktywnych na token), okno 32K, licencja Apache 2.0.
⚠ Deprecated✓ Publiczny dostęp⚖ Open sourceLLM📁 Mistral
Okno kontekstowe
32K
tokenów
Parametry
46.7B total / 12.9B active
parametrów
Data premiery
11 grudnia 2023
Dostęp:APIDownloadWdrożenie:💻 Lokalnie☁ Cloud

Przegląd

Mixtral 8x7B to model dekoder-only oparty na architekturze Sparse Mixture-of-Experts (SMoE), wydany przez Mistral AI 11 grudnia 2023 r. na licencji Apache 2.0. Na każdej warstwie i dla każdego tokenu sieć router wybiera 2 z 8 grup ekspertów w bloku feed-forward i sumuje ich wyjścia. Daje to 46,7 mld parametrów łącznie, ale jedynie ok. 12,9 mld aktywnych na token, co utrzymuje koszt i opóźnienie inferencji na poziomie modelu 12,9 mld parametrów.

Model obsługuje okno kontekstu 32 tys. tokenów oraz pięć języków: angielski, francuski, włoski, niemiecki i hiszpański. W wariancie Instruct (dostrojonym przez SFT i DPO) osiąga 8,30 punktu na MT-Bench. Mixtral 8x7B był udostępniany przez API Mistral pod nazwą open-mixtral-8x7b i można było pobrać jego wagi. Od 30 listopada 2024 r. jest oznaczony jako deprecated, a od 30 marca 2025 r. wycofany z API Mistral.

Klasyfikacja
LLM
Rodzina: Mistral
Dostęp i wdrożenie
APIPobieranie
LokalnieChmura
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 46.7B total / 12.9B active
✓ Fine-tuning
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
32K
tokenów
Parametry
46.7B total / 12.9B active
parametrów
Licencja
Apache 2.0
Funkcje:Fine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning

Wyniki benchmarków

2 benchmarki
MT-Bench
8.30
📄 mistral.ai/news/mixtral-of-experts
Wynik dla Mixtral 8x7B Instruct (SFT + DPO).
MMLU
accuracy
70.6%%
📄 mistral.ai/news/mixtral-of-experts

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)