Mamba-2

2 · Rodzina: Mamba

Druga generacja architektury Mamba (Selective SSM) z warstwą SSD, 2–8× szybsza od Mamba przy zachowaniu jakości porównywalnej z Transformerami.

🔬 Research🔬 Research only⚖ Open sourceLLM📁 Mamba

Parametry

130M – 2.7B

parametrów

Data premiery

31 maja 2024

🔬Carnegie Mellon UniversityLab badawczy

Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

Mamba-2 to architektura modeli językowych opracowana przez Tri Dao (Princeton University) i Alberta Gu (Carnegie Mellon University), opublikowana 31 maja 2024 roku w pracy „Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality" (ICML 2024, arXiv:2405.21060). Rdzeń modelu stanowi warstwa SSD (Structured State Space Duality), będąca rozwinięciem selektywnego SSM z pierwszej Mamby.

Wagi modeli bazowych (130M, 370M, 780M, 1.3B, 2.7B parametrów) są publikowane na Hugging Face pod organizacją state-spaces na licencji Apache-2.0. Modele zostały wytrenowane na 300 mld tokenów ze zbioru The Pile.

Klasyfikacja

LLM

Rodzina: Mamba

Dostęp i wdrożenie

Pobieranie

Lokalnie

Wagi: Open source

Kluczowe parametry

🧩 Parametry: 130M – 2.7B

📥 Wejście: tekst

Specyfikacja techniczna

Parametry

130M – 2.7B

parametrów

Licencja

Apache-2.0

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Modelowanie języka

Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.

Kategoria: language

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Architektura techniczna

Rdzeń architektury (Core Architecture)

SSSSM

Forma modelu (Model Form)

LLLLM

Techniki trenowania (Training Techniques)

PRPretraining

Źródła i powiązane strony

3 źródła

PaperTransformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality (ICML 2024)arxiv.org Repostate-spaces/mamba (GitHub)github.com Webstate-spaces (Hugging Face)huggingface.co

Przeglądaj powiązane tematy

📁 Mamba 🧠 SSM 🧠 LLM Wszystkie modele llm