DeepSeek V3

V3 · Rodzina: DeepSeek

Otwarty model językowy MoE od DeepSeek, zaprojektowany do rozumowania, programowania i pracy na długim kontekście przy wysokiej efektywności kosztowej.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsLLM📁 DeepSeek

Okno kontekstowe

128K

tokenów

Parametry

671B total, 37B activated

parametrów

Max output

8192

tokenów

Data premiery

26 grudnia 2024

🏢DeepSeek AIProducent

Dostęp:APIDownloadWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

DeepSeek-V3 to otwartowagowy (open-weights) model językowy typu Mixture-of-Experts (MoE), opracowany przez DeepSeek AI i wydany 26 grudnia 2024 roku.

Architektura i specyfikacja

Model ma 671 miliardów parametrów łącznie, z czego 37 miliardów jest aktywowanych na pojedynczy token dzięki architekturze Mixture-of-Experts. Okno kontekstowe: 128 000 tokenów. Maksymalna liczba tokenów wyjściowych: 8 192. Graniczna data wiedzy: lipiec 2024. Wagi modelu dostępne są publicznie (GitHub, Hugging Face) wraz z instrukcjami lokalnego wnioskowania.

Wyniki benchmarków

Według oficjalnego raportu technicznego (arXiv:2412.19437): MMLU 88,5%, MMLU-Pro 75,9%, GPQA Diamond 59,1%, MATH-500 90,2%, HumanEval 82,6%, LiveCodeBench 40,5%, AIME 2024 39,2%, DROP (3-shot F1) 91,6%.

Dostępność i ceny

Model dostępny przez API DeepSeek (api-docs.deepseek.com) oraz do samodzielnego wdrożenia z wag publikowanych na Hugging Face. Historyczne ceny w momencie premiery: 0,07 USD/MTok (cache hit), 0,27 USD/MTok (cache miss) za wejście oraz 1,10 USD/MTok za wyjście. Od grudnia 2025 endpoint deepseek-chat wskazuje na DeepSeek-V3.2.

Klasyfikacja

LLM

Rodzina: DeepSeek

Zastosowania

Chatboty Analiza danych Analiza dokumentów Streszczanie Tłumaczenie

Dostęp i wdrożenie

APIPobieranie

ChmuraLokalnie

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 128K

🧩 Parametry: 671B total, 37B activated

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst

Platformy

Hugging Face Hub

Specyfikacja techniczna

Okno kontekstowe

128K

tokenów

Parametry

671B total, 37B activated

parametrów

Max output tokens

8192

tokenów na odpowiedź

Knowledge cutoff

31 lip 2024

Data graniczna wiedzy

Licencja

DeepSeek License v1.0

Wymagania sprzętowe

Uruchomienie lokalne wymaga infrastruktury klasy serwerowej/GPU; oficjalnie dostępne także jako open weights oraz przez API DeepSeek. Repozytorium zawiera instrukcje local inference.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

textcodestructured_datasummariesreports

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Dziedziny zastosowań

Chatboty Analiza danych Analiza dokumentów Streszczanie Tłumaczenie

Wyniki benchmarków

9 benchmarków

MMLU-Pro

EM · chat model standard benchmarks

75.9%