Bazowy pretrenowany model DBRX bez instruction tuningu. 132B parametrow lacznie, 36B aktywnych (MoE 16 ekspertow, wybieranych 4). Pretrenowany na 12T tokenow, okno 32K.
Okno kontekstowe
32K
tokenów
Parametry
132B total / 36B active
parametrów
Max output
32 000
tokenów
Data premiery
27 marca 2024
Dostęp:APIDownloadWdrożenie:☁ Cloud💻 Lokalnie
Przegląd
Zastosowania
Dostęp i wdrożenie
APIPobieranie
ChmuraLokalnie
Wagi: Open weights
Kluczowe parametry
📏 Kontekst: 32K
🧩 Parametry: 132B total / 36B active
✓ Fine-tuning
📥 Wejście: tekst
Platformy
Specyfikacja techniczna
Okno kontekstowe
32K
tokenów
Parametry
132B total / 36B active
parametrów
Max output tokens
32 000
tokenów na odpowiedź
Knowledge cutoff
1 gru 2023
Data graniczna wiedzy
Licencja
Databricks Open Model License
Wymagania sprzętowe
Trening: 3072x NVIDIA H100 + 3.2 Tbps InfiniBand. Inference: GPU klasy enterprise (np. 8x H100 lub A100) z TensorRT-LLM, mozliwa kwantyzacja 8-bit.
Funkcje:✓ Fine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode
Możliwości i zastosowania
Natywne możliwości modelu
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Dziedziny zastosowań
Wyniki benchmarków
1 benchmark
MMLU
accuracy · 5-shot
73.7%
📄 Databricks DBRX blog (2024-03-27)
Wynik pochodzi z Tabeli 1 bloga DBRX (DBRX Instruct). DBRX Base nie ma osobno raportowanych liczb MMLU.
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
