Robocikowo>ROBOCIKOWO
DeepSeek-R1

DeepSeek-R1

R1 · Rodzina: DeepSeek
Otwarty model rozumowania od DeepSeek (styczeń 2025). MoE 671B z 37B aktywnymi parametrami, trenowany czystym RL z weryfikowalną nagrodą (GRPO) na bazie DeepSeek-V3.
✓ Aktywny✓ Publiczny dostęp⚖ Open weightsWyróżnionyModel rozumowaniaLLM📁 DeepSeek
Okno kontekstowe
128K
tokenów
Parametry
671B (37B active)
parametrów
Max output
32 768
tokenów
Data premiery
20 stycznia 2025
Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

DeepSeek-R1 to otwarty model rozumowania (reasoning model) wydany przez DeepSeek-AI 20 stycznia 2025. Architektonicznie jest to Mixture-of-Experts o łącznej liczbie 671 miliardów parametrów i 37 mld aktywnych na token, oparty na DeepSeek-V3-Base jako modelu źródłowym. R1 powstał w wyniku pipeline'u Reasoning RL z weryfikowalną nagrodą — GRPO (Group Relative Policy Optimization), gdzie nagrody pochodzą z reguł (poprawność matematyki, działanie kodu, format) zamiast wyuczonego modelu nagrody. Kontekst: 128 000 tokenów. Licencja: MIT na wagi, model dostępny publicznie na Hugging Face.

Razem z R1 opublikowano R1-Zero — wariant trenowany czystym RL bez żadnego SFT cold-startu, który dowiódł, że Reasoning RL może wyłaniać long chain-of-thought i samokorektę bezpośrednio z RL. Produkcyjny R1 dodał krótki SFT cold-start na kilkuset przykładach CoT, by uzyskać bardziej czytelne wyjścia. Opublikowano też serię dystylowanych wariantów na Llama 3.1 i Qwen 2.5 (1.5B, 7B, 8B, 14B, 32B, 70B), które przenoszą znaczną część zdolności R1 do modeli mieszczących się na pojedynczym GPU.

Wyniki: AIME 2024 79,8% pass@1, MATH-500 97,3%, Codeforces 96,3 percentyl, MMLU 90,8%, GPQA Diamond 71,5%, LiveCodeBench 65,9%, SWE-bench Verified 49,2% — porównywalne lub lepsze od OpenAI o1 przy ułamku kosztu inferencji. Model jest dostępny przez API DeepSeek, Hugging Face, Together AI, Fireworks, OpenRouter, Amazon Bedrock Marketplace i Vertex AI Model Garden. DeepSeek-R1 wraz z publikacją algorytmu GRPO ustanowił de-facto standard otwartego Reasoning RL i wywołał lawinę reprodukcji (TinyZero, Open-R1, SimpleRL).

Klasyfikacja
Model rozumowaniaLLM
Rodzina: DeepSeek
Dostęp i wdrożenie
APIPobieranieHostowane
ChmuraLokalnie
Wagi: Open weights
Kluczowe parametry
📏 Kontekst: 128K
🧩 Parametry: 671B (37B active)
Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst

Specyfikacja techniczna

Okno kontekstowe
128K
tokenów
Parametry
671B (37B active)
parametrów
Max output tokens
32 768
tokenów na odpowiedź
Knowledge cutoff
1 lip 2024
Data graniczna wiedzy
Licencja
MIT
Wymagania sprzętowe
Pełny model wymaga klastra wielu GPU (typowo 8×H100 80 GB lub większy). Dostępne dystylowane warianty (1.5B–70B) działają na pojedynczym consumer/data-center GPU.
Funkcje:Używanie narzędziFine-tuning
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Zdolności agentowe
Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning

Wyniki benchmarków

8 benchmarków
AIME 2024
pass@1 · cons@64 (majority voting)
79.8%
📄 DeepSeek-R1 paper (arXiv:2501.12948)
MATH
pass@1 · MATH-500 subset
97.3%
📄 DeepSeek-R1 paper (MATH-500)
Codeforces
percentile · 2 029 ELO equivalent
96.3percentile
📄 DeepSeek-R1 paper
MMLU
accuracy · pass@1
90.8%
📄 DeepSeek-R1 paper
GPQA
pass@1 · GPQA Diamond
71.5%
📄 DeepSeek-R1 paper
LiveCodeBench
pass@1 · COT@8
65.9%
📄 DeepSeek-R1 paper
SWE-bench
resolved · SWE-bench Verified
49.2%
📄 DeepSeek-R1 paper
MMLU-Pro
EM · Exact Match
84.0%
📄 DeepSeek-R1 paper

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)

Wdrożenie i bezpieczeństwo