Robocikowo>ROBOCIKOWO
Mamba-2

Mamba-2

2 · Rodzina: Mamba
Druga generacja architektury Mamba (Selective SSM) z warstwą SSD, 2–8× szybsza od Mamba przy zachowaniu jakości porównywalnej z Transformerami.
🔬 Research🔬 Research only⚖ Open sourceLLM📁 Mamba
Parametry
130M – 2.7B
parametrów
Data premiery
31 maja 2024
Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

Mamba-2 to architektura modeli językowych opracowana przez Tri Dao (Princeton University) i Alberta Gu (Carnegie Mellon University), opublikowana 31 maja 2024 roku w pracy „Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality" (ICML 2024, arXiv:2405.21060). Rdzeń modelu stanowi warstwa SSD (Structured State Space Duality), będąca rozwinięciem selektywnego SSM z pierwszej Mamby.

Wagi modeli bazowych (130M, 370M, 780M, 1.3B, 2.7B parametrów) są publikowane na Hugging Face pod organizacją state-spaces na licencji Apache-2.0. Modele zostały wytrenowane na 300 mld tokenów ze zbioru The Pile.

Klasyfikacja
LLM
Rodzina: Mamba
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 130M – 2.7B
📥 Wejście: tekst

Specyfikacja techniczna

Parametry
130M – 2.7B
parametrów
Licencja
Apache-2.0
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)