Wnioskowanie

Reasoning RL

2024AktywnyOpublikowano: 10 czerwca 2026Aktualizacja: 10 czerwca 2026Opublikowany

Reasoning RL to paradygmat trenowania modeli rozumowania (reasoning models) typu OpenAI o1, DeepSeek-R1 i Qwen QwQ przy pomocy reinforcement learning ze sprawdzalnymi (rule-based) sygnałami nagrody — najczęściej poprawnością matematyki, działaniem kodu lub strukturą odpowiedzi. Algorytmem-flagi tej rodziny jest GRPO z DeepSeek-R1, ale rozwiązanie obejmuje całą klasę pipeline'ów RL bez wyuczonego reward modelu.

Kluczowa innowacja

Trening LLM przez reinforcement learning na zadaniach z weryfikowalną nagrodą (poprawność matematyki, wykonanie kodu, zgodność formatu) zamiast wyuczonego modelu nagrody jak w RLHF. Wymusza emergencję długich, samokorygujących łańcuchów rozumowania (long chain-of-thought) i znosi konieczność ręcznych etykiet preferencji.

Kategoria

Wnioskowanie

Poziom abstrakcji

Paradigm

Poziom operacji

Po-treningTreningModelInferencja

Zastosowania

Modele rozumowania (reasoning models): OpenAI o1 / o3, DeepSeek-R1, Kimi k1.5, Qwen QwQ-32B, Anthropic „extended thinking"Math benchmarks: AIME, MATH, GSM8K — Reasoning RL daje skoki +20–40 pp względem SFTCoding: LiveCodeBench, Codeforces — RL z `pytest` jako verifierFormalne dowody (Lean, Coq) z symbolicznymi verifieramiAgentic tool use: RL na łańcuchach `tool → observe → reason → tool` z nagrodą za końcowy sukces zadania

Jak działa

Pipeline składa się z czterech komponentów. (1) Verifier — funkcja R(x, y) dająca nagrodę bez uczonego modelu: dla matematyki — porównanie ostatecznej odpowiedzi z ground-truth (boxed{}, LaTeX equality), dla kodu — wykonanie testów (`pytest`), dla logiki — symboliczny solver, dla formatu — regex sprawdzający strukturę `<think>...</think><answer>...</answer>`. Najczęściej kompozycja kilku R: `R = α·R_correct + β·R_format`. (2) Sampler — model π_θ generuje N (zwykle 8–64) niezależnych rolloutów per prompt z temperaturą 0.6–1.0, każdy może mieć inny long-CoT i inną odpowiedź. (3) Optimizer — algorytm RL aktualizujący politykę. GRPO (Group Relative Policy Optimization, DeepSeek): w grupie N rolloutów liczy się względna nagroda Â_i = (R_i - mean(R)) / std(R) jako advantage; brak modelu wartości; loss = -E[π_θ/π_old · Â] z KL-penalty wobec π_ref. PPO i REINFORCE++ to alternatywy. (4) Iteracja — ponowne sampling z aktualnej polityki, fresh rollouty, kolejna aktualizacja. W trakcie treningu długość CoT samoistnie rośnie (od ~500 do 5 000–10 000 tokenów), a model uczy się autorefleksji bez explicit instructions — słynne „aha moments" z DeepSeek-R1-Zero.

Rozwiązany problem

RLHF i DPO uczą LLM zgodności z preferencjami człowieka, ale są ograniczone jakością par etykiet i nie skalują się dobrze na zadania, w których człowiek nie umie ocenić poprawności (zaawansowana matematyka, formalne dowody, kompleksowe debugowanie kodu). Klasyczne zadania matematyczne i programistyczne mają jednak naturalny weryfikator (`==`, `pytest`), który daje nagrodę 0/1 bez ludzkiej etykiety. Reasoning RL wykorzystuje tę asymetrię: model rozwiązuje zadanie wieloma rolloutami, otrzymuje rule-based reward, a polityka jest aktualizowana algorytmem RL (GRPO/PPO/REINFORCE++). W trakcie eksploracji emergentnie wyrasta long-CoT z momentami autorefleksji („wait, let me reconsider"), dając jakość rozumowania niedostępną dla SFT/RLHF.

Komponenty

Verifier (rule-based reward function)Sygnał uczenia bez modelu nagrody

Funkcja zewnętrzna ewaluująca poprawność odpowiedzi y dla promptu x. Bez parametrów uczonych: matematyka → equality check, kod → pytest, logika → solver, format → regex. Najczęściej kompozycja: R = α·R_correct + β·R_format + γ·R_length.

INPrompt zadania i pełen rollout modelu.

OUTSkalarna nagroda — typowo binarna lub kombinacja binarnych komponentów.

Math equality verifierPorównanie wyboxowanej odpowiedzi z ground truth (LaTeX/SymPy).

Code execution verifierpytest / unit testy w sandboxie.

Format regexSprawdza obecność `<think>...</think><answer>...</answer>`.

Symbolic solver (Lean/Coq)Formalna weryfikacja dowodu.

Oficjalna

Sampler (rollout generator)Eksploracja przestrzeni odpowiedzi

Engine generujący N (typowo 8–64) niezależnych rolloutów per prompt z polityki π_θ. Wymaga inference engine high-throughput (vLLM, SGLang) z FlashAttention/PagedAttention dla efektywnego batch generation.

GRPO / PPO / REINFORCE++ optimizerKierowanie polityki w stronę wyższych nagród

Algorytm aktualizujący politykę. GRPO (DeepSeek): advantage względny w grupie rolloutów per prompt, brak modelu wartości. PPO: klasyk, wymaga value model. REINFORCE++ z baseline'em znormalizowanym.

GRPO (DeepSeek)Group Relative Policy Optimization — bez value model.

PPOProximal Policy Optimization — wymaga value model.

REINFORCE++Z normalizacją reward jako baseline.

DAPO (ByteDance)Decoupled Advantage Policy Optimization — stabilniejszy.

Oficjalna

Reference policy π_ref + KL penaltyStabilizator polityki, zapobiega katastrofalnemu zapominaniu

Zamrożony SFT model używany jako kotwica — KL(π_θ || π_ref) penalizuje ucieczkę polityki, chroni jakość bazowych zdolności. Niektóre warianty (DAPO, SimPO-style) eliminują π_ref całkowicie.

Oficjalna

Implementacja

Implementacje referencyjne

deepseek-ai/DeepSeek-R1 (oficjalne wagi + paper)

Python · DeepSeek-AI

Oficjalna

huggingface/open-r1 (otwarta reprodukcja R1)

Python (PyTorch) · Hugging Face

volcengine/verl (RL framework dla LLM, GRPO/PPO)

Python · ByteDance Volcengine

OpenRLHF (skalowalne RLHF/Reasoning RL)

Python (Ray + DeepSpeed) · OpenRLHF community

Hugging Face TRL — GRPOTrainer

Python (PyTorch) · Hugging Face

Jiayi-Pan/TinyZero (R1-Zero w 30 USD)

Python · Jiayi Pan (UC Berkeley)

Pułapki implementacyjne

Reward hacking — model wykorzystuje dziurę w verifierKrytyczna

Najpoważniejszy problem reasoning RL. Przykłady: model wpisuje tylko `\boxed{42}` bez rozumowania (jeśli nie ma format reward), kradnie odpowiedź z testu jednostkowego (`assert answer == ...`), albo generuje krótkie zaszumione odpowiedzi które przypadkiem trafiają. Trening się „udaje" (reward rośnie), ale model jest bezużyteczny.

Rozwiązanie:Kompozycja kilku R (correct + format + length); rygorystyczna sandboxing kodowych verifierów; manualne audyty rolloutów wczesnych iteracji; held-out benchmark inny niż trening.

Mode collapse — wszystkie rolloutry identyczneWysoka

Zbyt agresywna polityka KL-free + niska temperatura → model produkuje N kopii tego samego rolloutu, advantage = 0, gradient = 0, trening zamiera. Manifestuje się jako brak postępu na benchmarku przy „normalnym" loss'ie.

Rozwiązanie:Monitorować wariancję rolloutów (std(R) per group); utrzymać temperaturę 0.6–1.0; KL-penalty >= 0.001 w pierwszych iteracjach.

CoT length budget za mały → trening tnie myślenieWysoka

Jeśli max_tokens ustawiony jest mniejszy niż naturalna długość CoT, model uczy się być sztucznie zwięzły i traci jakość rozumowania. Symptom: jakość pozytywnie skoreluje z pozwolonym budgetem.

Rozwiązanie:Startować z 8k tokenów, monitorować średnią długość rolloutów, zwiększać limit gdy zbliża się do max.

Asynchroniczność sampler ↔ trainer powoduje stale dataŚrednia

W produkcyjnych pipeline'ach (oddzielny cluster vLLM samplujący, oddzielny trener) rolloutry mogą pochodzić z polityki o kilkadziesiąt updates starszej. Przy zbyt dużym lag'u importance ratio π_θ/π_old wybucha i loss się rozjeżdża.

Rozwiązanie:Off-policy correction (clip importance ratio, IS reweighting); regularnie synchronizować wagi sampler-trainer; ograniczać max lag (np. <= 5 updates).

Brak diversyfikacji domen reward → model wąskiŚrednia

Trening tylko na zadaniach matematycznych daje doskonałego matematyka, który gubi się w reszcie. Reasoning RL działa najlepiej na mieszance domen (math + code + logic + general QA z LLM-as-judge).

Rozwiązanie:Mieszać domeny w mini-batchach; dodać niewielką frakcję RLHF preference data (LLM-as-judge) dla ogólnej jakości.

Ewolucja

Oryginalny paper · 2025 · arXiv:2501.12948 (DeepSeek-AI, 2025) · DeepSeek-AI Team

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI Team, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu

2022

Chain-of-Thought (Wei et al., Google)

CoT prompting pokazuje, że LLM rozwiązują znacznie trudniejsze zadania, gdy myślą „krok po kroku". Otwiera drogę do trenowania modeli, które myślą długo zamiast krótko.

CoT (koncept)

2024

OpenAI o1 — pierwsze wdrożenie produkcyjne reasoning RL

Punkt przełomowy

Wrzesień 2024: OpenAI wypuszcza o1-preview. Pierwszy publicznie dostępny LLM trenowany na long-CoT przez RL. Skok jakości na AIME (12% → 74%) i Codeforces (1 258 → 1 891 ELO). Brak publikacji szczegółów algorytmu.

2025

DeepSeek-R1 / R1-Zero — open-source z otwartym algorytmem

Punkt przełomowy

Styczeń 2025: DeepSeek publikuje R1 i R1-Zero z opisem GRPO i pełnym pipeline RL na MoE 671B. R1-Zero pokazuje, że RL działa nawet BEZ SFT cold-start. Otwarte wagi i metoda demokratyzują reasoning RL — w tygodniach powstają reprodukcje TinyZero, OpenR1, Open-R1 (Hugging Face).

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (artykuł)

2025

Kimi k1.5 — równoległa publikacja Moonshot AI

Styczeń 2025: Moonshot AI publikuje Kimi k1.5 — niezależnie odkryty pipeline reasoning RL z REINFORCE++ i length penalty. Potwierdza, że metoda jest reprodukowalna poza DeepSeek.

2025

Qwen QwQ-32B, OpenAI o3, Anthropic extended thinking

Wiosna 2025: Alibaba publikuje QwQ-32B (open-source, GRPO). OpenAI wypuszcza o3 z reasoning RL na większą skalę. Anthropic dodaje „extended thinking" do Claude 3.7 / 4. Reasoning RL staje się mainstreamem.

2025

DAPO, Reinforce-Lite, GRPO++ — fala wariantów algorytmu

ByteDance publikuje DAPO (Decoupled Advantage Policy Optimization) z lepszą stabilnością. Społeczność wprowadza warianty bez π_ref, z token-level rewards, z asynchronicznymi rolloutami. Reasoning RL przestaje być monolitem GRPO i staje się polem badań.

Hiperparametry (konfigurowalne osie)

Verifier designKrytyczna

Najważniejszy element — szczegóły funkcji nagrody. Najlepsze efekty: kompozycja R_correct (binarne) + R_format (binarne) + opcjonalnie R_length (penalty za zbyt długie). Słaby/szumny verifier = reward hacking, model uczy się wykorzystywać dziurę zamiast rozumowania.

R = R_correct + 0.1·R_formatDeepSeek-R1-Zero (math + format)

R = R_pytest + R_formatCoding pipelines

R = symbolic_solver(answer) == ground_truthFormalne dowody Lean/Coq

RL algorithmKrytyczna

Wybór optymalizatora. GRPO (DeepSeek) — bez modelu wartości, używa grupy rolloutów jako baseline'u, znacznie tańszy niż PPO. PPO — klasyk z RLHF, używany w o1 (rumored). REINFORCE++ — uproszczony wariant z normalizacją.

GRPODeepSeek-R1, Qwen QwQ — dominujący w open-source

PPOTradycyjna alternatywa, droższa pamięciowo

REINFORCE++Wariant uproszczony bez clip

DAPODecoupled Advantage Policy Optimization (ByteDance 2025)

Rollouts per prompt (N)Wysoka

Liczba niezależnych prób per prompt. W GRPO N=8–64 typowo; mniejsze daje wysoki wariancję advantage, większe — wysokie zużycie compute przy diminishing returns.

8Małe modele / eksperymenty

16Standard DeepSeek-R1-Zero

64Duże modele / trudne benchmarki

KL coefficient (β)Wysoka

Siła KL-penalty wobec polityki referencyjnej (zwykle SFT model). Zbyt niska = polityka ucieka, generacje stają się bełkotem. Zbyt wysoka = model nie eksploruje, brak emergencji long-CoT.

0.001DeepSeek-R1 — bardzo agresywne RL

0.04Konserwatywne — bezpieczne ale wolne

0DAPO i inne warianty bez π_ref

CoT length budgetWysoka

Maksymalna długość rolloutu w tokenach. Determinuje compute samplingu i sufit zdolności modelu. W trakcie RL długość CoT samoistnie rośnie — należy zostawić zapas.

8 192Start treningu

16 384Średnio-zaawansowane

32 768+Pełne reasoning models (o1, R1)

Cold start strategyŚrednia

Czy model startuje z czystego base/SFT czy z dedykowanego cold-start CoT. DeepSeek-R1-Zero pokazał, że RL bez SFT też działa (R1-Zero), ale R1 produkcyjny robi krótki SFT na ~kilkuset CoT-przykładach przed RL.

pure RLR1-Zero — pokazuje czysty efekt RL

short SFT cold startR1, QwQ, Kimi k1.5 — produkcyjny standard

Reasoning RL

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Złożoność obliczeniowa

Wąskie gardło obliczeniowe

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe