DeepSeek-R1

R1 · Rodzina: DeepSeek

Otwarty model rozumowania od DeepSeek (styczeń 2025). MoE 671B z 37B aktywnymi parametrami, trenowany czystym RL z weryfikowalną nagrodą (GRPO) na bazie DeepSeek-V3.

✓ Aktywny✓ Publiczny dostęp⚖ Open weights★ WyróżnionyModel rozumowaniaLLM📁 DeepSeek

Okno kontekstowe

128K

tokenów

Parametry

671B (37B active)

parametrów

Max output

32 768

tokenów

Data premiery

20 stycznia 2025

🏢DeepSeek AIProducent

Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

DeepSeek-R1 to otwarty model rozumowania (reasoning model) wydany przez DeepSeek-AI 20 stycznia 2025. Architektonicznie jest to Mixture-of-Experts o łącznej liczbie 671 miliardów parametrów i 37 mld aktywnych na token, oparty na DeepSeek-V3-Base jako modelu źródłowym. R1 powstał w wyniku pipeline'u Reasoning RL z weryfikowalną nagrodą — GRPO (Group Relative Policy Optimization), gdzie nagrody pochodzą z reguł (poprawność matematyki, działanie kodu, format) zamiast wyuczonego modelu nagrody. Kontekst: 128 000 tokenów. Licencja: MIT na wagi, model dostępny publicznie na Hugging Face.

Razem z R1 opublikowano R1-Zero — wariant trenowany czystym RL bez żadnego SFT cold-startu, który dowiódł, że Reasoning RL może wyłaniać long chain-of-thought i samokorektę bezpośrednio z RL. Produkcyjny R1 dodał krótki SFT cold-start na kilkuset przykładach CoT, by uzyskać bardziej czytelne wyjścia. Opublikowano też serię dystylowanych wariantów na Llama 3.1 i Qwen 2.5 (1.5B, 7B, 8B, 14B, 32B, 70B), które przenoszą znaczną część zdolności R1 do modeli mieszczących się na pojedynczym GPU.

Wyniki: AIME 2024 79,8% pass@1, MATH-500 97,3%, Codeforces 96,3 percentyl, MMLU 90,8%, GPQA Diamond 71,5%, LiveCodeBench 65,9%, SWE-bench Verified 49,2% — porównywalne lub lepsze od OpenAI o1 przy ułamku kosztu inferencji. Model jest dostępny przez API DeepSeek, Hugging Face, Together AI, Fireworks, OpenRouter, Amazon Bedrock Marketplace i Vertex AI Model Garden. DeepSeek-R1 wraz z publikacją algorytmu GRPO ustanowił de-facto standard otwartego Reasoning RL i wywołał lawinę reprodukcji (TinyZero, Open-R1, SimpleRL).

Klasyfikacja

Model rozumowaniaLLM

Rodzina: DeepSeek

Zastosowania

Kodowanie Q&A / Odpowiadanie na pytania Praca z wiedzą Asystent badawczy Burza mózgów Asystent pisania Generowanie dokumentów Analiza danych

Dostęp i wdrożenie

APIPobieranieHostowane

ChmuraLokalnie

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 128K

🧩 Parametry: 671B (37B active)

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst

Platformy

Hugging Face Hub Amazon Bedrock Vertex AI

Specyfikacja techniczna

Okno kontekstowe

128K

tokenów

Parametry

671B (37B active)

parametrów

Max output tokens

32 768

tokenów na odpowiedź

Knowledge cutoff

1 lip 2024

Data graniczna wiedzy

Licencja

MIT

Wymagania sprzętowe

Pełny model wymaga klastra wielu GPU (typowo 8×H100 80 GB lub większy). Dostępne dystylowane warianty (1.5B–70B) działają na pojedynczym consumer/data-center GPU.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Modelowanie języka

Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.

Kategoria: language

Zdolności agentowe

Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Dziedziny zastosowań

Kodowanie Q&A / Odpowiadanie na pytania Praca z wiedzą Asystent badawczy Burza mózgów Asystent pisania Generowanie dokumentów Analiza danych

Wyniki benchmarków

8 benchmarków

AIME 2024

pass@1 · cons@64 (majority voting)

79.8%

📄 DeepSeek-R1 paper (arXiv:2501.12948)

MATH

pass@1 · MATH-500 subset

97.3%

📄 DeepSeek-R1 paper (MATH-500)

Codeforces

percentile · 2 029 ELO equivalent

96.3percentile

📄 DeepSeek-R1 paper

MMLU

accuracy · pass@1

90.8%

📄 DeepSeek-R1 paper

GPQA

pass@1 · GPQA Diamond

71.5%

📄 DeepSeek-R1 paper

LiveCodeBench

pass@1 · COT@8

65.9%

📄 DeepSeek-R1 paper

SWE-bench

resolved · SWE-bench Verified

49.2%

📄 DeepSeek-R1 paper

MMLU-Pro

EM · Exact Match

84.0%

📄 DeepSeek-R1 paper

Architektura techniczna

Rdzeń architektury (Core Architecture)

MOMoE TRTransformer RORoPE MHMHA GQGQA

Forma modelu (Model Form)

LLLLM RMReasoning model

Techniki trenowania (Training Techniques)

RRReasoning RL GRGRPO SFSFT RLRLHF ITInstruction Tuning PRPretraining RFRFT COCoT

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach

☁Hugging Face HubPlatforma ☁Amazon BedrockPlatforma ☁Vertex AIPlatforma

Źródła i powiązane strony

5 źródeł

PaperDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learningarxiv.org Repodeepseek-ai/DeepSeek-R1 (GitHub)github.com RepoDeepSeek-R1 on Hugging Facehuggingface.co WebDeepSeek Chat / APIchat.deepseek.com DocsDeepSeek API docsapi-docs.deepseek.com

Przeglądaj powiązane tematy

📁 DeepSeek 🌐 Kodowanie 🌐 Q&A / Odpowiadanie na pytania 🌐 Praca z wiedzą 🌐 Asystent badawczy 🧠 MoE 🧠 Transformer 🧠 RoPE ☁ Hugging Face Hub ☁ Amazon Bedrock Wszystkie modele reasoning model Wszystkie modele llm