Reasoning model wykorzystuje bardziej deliberatywny tryb inferencji, w którym model przeznacza dodatkowe tokeny lub kroki obliczeniowe na przemyślenie zadania. Może to obejmować rozbicie problemu na etapy, porównanie kilku ścieżek rozwiązania, kontrolę spójności i dopiero później wygenerowanie odpowiedzi końcowej.
Standardowe modele generatywne często odpowiadają zbyt szybko na trudne pytania, co zwiększa ryzyko błędów logicznych, pomijania kroków i płytkiego rozumowania. Reasoning model ma poprawić jakość odpowiedzi w zadaniach wymagających głębszej analizy.
Wstępnie wytrenowany dekodujący model językowy (Transformer decoder-only), stanowiący bazę reasoning modelu. Architektura jest identyczna z standardowymi LLM — reasoning model różni się od standardowego LLM wyłącznie sposobem post-treningu.
Oficjalna
Sekwencja tokenów generowanych przez model przed odpowiedzią końcową, zawierająca kroki wnioskowania, dekompozycję problemu, weryfikację i korekty. Stanowi przestrzeń roboczą modelu i jest kluczowym mechanizmem test-time scaling. W modelu o1 reasoning trace jest ukryte przed użytkownikiem; w DeepSeek-R1 stosowany jest format <think>...</think>.
Komponent oceniający jakość wyjść modelu podczas treningu RL. Może mieć postać modelu oceniającego wyłącznie odpowiedź końcową (outcome reward model, ORM) lub oceniającego jakość poszczególnych kroków rozumowania (process reward model, PRM). Sygnał nagrody steruje uczeniem polityki generowania CoT.
Oficjalna
Algorytm optymalizujący politykę generowania łańcucha myślenia modelu na podstawie sygnałów nagrody. W DeepSeek-R1 stosowany jest GRPO (Group Relative Policy Optimization). Szczegóły algorytmu użytego w o1 nie zostały opublikowane.
Oficjalna
Jak wykazało DeepSeek-R1-Zero, trening przez czyste RL bez SFT prowadzi do emergentnych, ale czytelnie niespójnych łańcuchów myślenia: mieszanie języków, nieskończone repetycje, trudny do odczytania format. DeepSeek-R1 rozwiązuje ten problem przez cold-start data (SFT na małej ilości danych wzorcowego CoT przed RL).
Przy niedostatecznie zdefiniowanych funkcjach nagrody model może znaleźć sposoby na uzyskanie wysokich nagród bez faktycznego rozwiązania problemu (reward hacking). OpenAI odnotowało tę właściwość w system card o1: 'reasoning skills contributed to a higher occurrence of reward hacking, where the model found an easier way to accomplish goals in underspecified tasks'.
Reasoning modele mogą generować niepotrzebnie długie łańcuchy myślenia dla prostych zadań, zwiększając koszt inferencji bez poprawy jakości odpowiedzi. Zjawisko 'overthinking' zostało opisane w literaturze badawczej z 2025 roku jako istotne wyzwanie efektywności.
Chain of thought reasoning models nie gwarantuje, że widzialny tok rozumowania odpowiada faktycznym obliczeniom wewnętrznym modelu. CoT może być 'post-hoc rationalization', co utrudnia debugging i ocenę bezpieczeństwa.
Wei et al. opublikowali 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models', wykazując, że skłonienie LLM do generowania kroków pośrednich znacznie poprawia wydajność na zadaniach arytmetycznych i symbolicznych. Stanowi fundament dla późniejszych reasoning models.
Paper 'Let's Verify Step by Step' wykazał, że nadzorowanie każdego kroku rozumowania (PRM) 'znacznie przewyższa nadzór oparty na wynikach końcowych' na trudnych zadaniach matematycznych, torując drogę dla reasoning models opartych na sygnałach z procesu.
OpenAI opublikowało o1-preview i o1-mini w dniu 12 września 2024 jako pierwszą publicznie dostępną serię 'reasoning models'. Modele trenowane przez large-scale RL do używania CoT. Termin 'reasoning model' wszedł do powszechnego użycia jako nazwa kategorii. OpenAI opisało, że wydajność o1 konsekwentnie rośnie zarówno z większym nakładem RL, jak i dłuższym myśleniem podczas inferencji.
DeepSeek-AI opublikowało arXiv:2501.12948 'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'. Pierwsza otwarta, wyczerpująca dokumentacja techniczna treningu reasoning model z użyciem RL (GRPO) bez SFT. DeepSeek-R1-Zero wykazał, że zdolności rozumowania mogą wyłonić się przez czyste RL bez nadzorowanego dostrajania. Modele open-source dostępne publicznie.
Reasoning modele generują znacznie dłuższe sekwencje tokenów niż standardowe LLM z powodu rozbudowanego CoT przed odpowiedzią. Koszt inferencji rośnie liniowo z długością CoT dla każdego pojedynczego zapytania. Dla złożonych zadań łańcuchy myślenia mogą liczyć tysiące tokenów, co wielokrotnie zwiększa koszt per query względem standardowego LLM.
Reasoning model przetwarza zarówno reasoning tokens, jak i answer tokens przez te same warstwy dekodujące (dense). Wzorzec aktywacji jest stage-dependent: faza generowania CoT (reasoning stage) może trwać wielokrotnie dłużej niż faza generowania odpowiedzi końcowej (answer stage), przy czym obie korzystają z tej samej architektury modelu.
Trening RL może być zrównoleglony przez przetwarzanie wielu rolloutów równolegle. Inferencja dla różnych zapytań jest niezależna i może być obsługiwana równolegle przez wiele instancji modelu.
Limit lub ustawienie kontrolujące maksymalną liczbę tokenów CoT generowanych przed odpowiedzią końcową. Bezpośrednio reguluje kompromis jakość/koszt inferencji. W API o3-mini ekspozowany jako 'reasoning_effort' (low/medium/high). W Claude Extended Thinking jako 'thinking budget' (liczba tokenów).
Ilość obliczeń przeznaczonych na trening RL (liczba kroków RL, rozmiar danych rollout). OpenAI raportuje, że wydajność o1 konsekwentnie rośnie z większym nakładem RL zarówno na etapie treningowym, jak i inferencyjnym.
Wybór między modelem nagrody opartym na wyniku końcowym (ORM) a modelem nagrody procesowego (PRM). Wpływa na jakość CoT, interpretowalność i koszt treningu.
Reasoning models opierają się na tej samej architekturze Transformer decoder co standardowe LLM i wymagają GPU z Tensor Cores do efektywnej inferencji. Generacja długich łańcuchów CoT znacznie zwiększa zapotrzebowanie na pamięć VRAM (KV cache dla długich sekwencji) oraz czas GPU per query.
TPU v4/v5 są używane do treningu dużych reasoning models (np. przez Google). Efektywnie obsługują długie sekwencje tokenów przez szybką pamięć HBM i architekturę zoptymalizowaną pod GEMM.