Druga generacja architektury Mamba (Selective SSM) z warstwą SSD, 2–8× szybsza od Mamba przy zachowaniu jakości porównywalnej z Transformerami.
Parametry
130M – 2.7B
parametrów
Data premiery
31 maja 2024
Dostęp:DownloadWdrożenie:💻 Lokalnie
Przegląd
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Open source
Kluczowe parametry
🧩 Parametry: 130M – 2.7B
📥 Wejście: tekst
Specyfikacja techniczna
Parametry
130M – 2.7B
parametrów
Licencja
Apache-2.0
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
text
Możliwości i zastosowania
Natywne możliwości modelu
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
