Robocikowo>ROBOCIKOWO
Claude Opus 4.5

Claude Opus 4.5

Opus 4.5 · Rodzina: Claude
Flagowy model AI Anthropic (24.11.2025). Pierwszy model przekraczający 80% na SWE-bench Verified (80,9%). Wyróżnia się parametrem effort, extended thinking i odpornością na prompt injection.
✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Claude
Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output
64 000
tokenów
Data premiery
24 listopada 2025
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Claude Opus 4.5 to flagowy model językowy firmy Anthropic, wydany 24 listopada 2025 roku. Identyfikator modelu w API: claude-opus-4-5-20251101. Model należy do rodziny Claude 4 i pełnił rolę najzdolniejszego modelu Anthropic do premiery Claude Opus 4.6.

Kluczowe cechy

Opus 4.5 wprowadza parametr effort sterujący intensywnością wnioskowania, rozszerzone myślenie (extended thinking), zaawansowaną obsługę komputera (computer use) oraz tryb wielokrotnego wywoływania narzędzi. Okno kontekstowe wynosi 200 000 tokenów, a maksymalna liczba tokenów wyjściowych — 64 000. Graniczna data wiedzy modelu: maj 2025.

Wyniki benchmarków

Opus 4.5 jest pierwszym modelem, który przekroczył próg 80% na SWE-bench Verified (80,9%), wyprzedzając GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%). Osiąga 59,3% na Terminal-Bench 2.0, 37,6% na ARC-AGI-2, 66,3% na OSWorld (trzykrotna poprawa względem Claude 3.5) oraz 87,0% na GPQA Diamond. Na benchmarku wieloetapowego użycia narzędzi MCP Atlas uzyskuje 62,3% — znacząco powyżej drugiego wyniku (Claude Sonnet 4.5, 43,8%).

Bezpieczeństwo

Model wdrożony pod standardem AI Safety Level 3 (ASL-3). Według Anthropic to najlepiej wyrównany ich model w momencie premiery. Najlepsza w branży odporność na prompt injection — 4,7% skuteczności ataku (Gray Swan), wobec 12,5% dla Gemini 3 Pro i 21,9% dla GPT-5.1 (niższy = lepszy). Zastosowano RLHF, RLAIF (Constitutional AI) oraz „inoculation strategy" przeciwko reward hackingowi.

Dostępność i ceny

Model zamknięty (closed weights), dostępny przez Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI oraz Microsoft Foundry. Ceny: 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych — obniżka o ok. 67% względem Opus 4.1 (15/75 USD).

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Claude
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 200K
🧩 Parametry: nieujawnione publicznie
Narzędzia
📥 Wejście: tekst, obraz, dokumenty

Specyfikacja techniczna

Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output tokens
64 000
tokenów na odpowiedź
Knowledge cutoff
1 maj 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostęp przez infrastrukturę Anthropic, AWS Bedrock lub Google Vertex AI. Brak lokalnego uruchomienia i brak otwartych wag.
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_datasummariesreports

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning

Wyniki benchmarków

16 benchmarków
SWE-bench Verified
accuracy · Bez thinking budget; domyślny effort (high); uśrednienie z 5 niezależnych prób; poprawione środowisko hostingowe (Terminus-2)
80.9%
📅 24 lis 2025📄 Anthropic – oficjalny blog i system card (claude-opus-4-5)
Pierwszy model AI przekraczający próg 80% na SWE-bench Verified. Wynik wyższy niż GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%).
Terminal-Bench 2.0
accuracy · 128K thinking budget; uśrednienie z 5 prób
59.3%
📅 24 lis 2025📄 Anthropic system card / Vellum AI analysis
Lepszy od Gemini 3 Pro (54,2%) i GPT-5.1 (47,6%). Najwyższy wynik Terminal-Bench Hard (44%) spośród wszystkich modeli w testach Artificial Analysis.
ARC-AGI-2
accuracy
37.6%
📅 24 lis 2025📄 Anthropic system card / Vellum AI
Ponad dwukrotnie lepszy od GPT-5.1 (17,6%); wyższy niż Gemini 3 Pro (31,1%). Znacząca poprawa w abstrakcyjnym rozumowaniu niewerbalnym.
OSWorld
accuracy
66.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Trzykrotna poprawa względem Claude 3.5 (22%). Najlepszy wynik Anthropic dla computer use w momencie premiery.
GPQA Diamond
accuracy · Z extended thinking (64K token budget)
87.0%
📅 24 lis 2025📄 Vellum AI / Artificial Analysis
Nieco niższy od Gemini 3 Pro (91,9%) i GPT-5.1 (88,1%). Mocny wynik na poziomie PhD.
Humanity's Last Exam
accuracy · Z web search
43.2%
📅 24 lis 2025📄 Vellum AI
Bez web search: ~30,8%. Gemini 3 Pro osiąga ~37,5% bez narzędzi, ~45,2% z narzędziami.
MMMLU
accuracy
90.8%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Nieco niższy od Gemini 3 Pro (91,8%) i GPT-5.1 (91,0%). Wyższy niż Claude Sonnet 4.5 (89,1%).
MMMU
accuracy · Z extended thinking
80.7%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Najniższy wynik w klasie (GPT-5.1: 85,4%, Gemini 3 Pro: 81,0%).
MCP Atlas (scaled tool use)
accuracy
62.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Duża przewaga: drugi wynik to Claude Sonnet 4.5 z 43,8%. Benchmark oceniający użycie wielu narzędzi jednocześnie.
SpreadsheetBench
accuracy
64.25%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający automatyzację arkuszy kalkulacyjnych.
CyberGym
pass@1
50.6%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong / AIToolsReview (dane z system card)
1507 zadań z rzeczywistymi podatnościami CVE w projektach open source.
FinanceAgent
accuracy · Wynik zewnętrzny; wewnętrzny: 61,1%
55.2%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający złożoną analizę finansową.
Vending-Bench 2
final_balance
$4,967.06USD
📅 24 lis 2025📄 Anthropic system card / Vellum AI
23% wzrost względem Sonnet 4.5 ($3 849,74). Gemini 3 Pro prowadzi z $5 478,16. Benchmark długoterminowego planowania strategicznego (rok symulowanego biznesu).
Gray Swan Prompt Injection
attack_success_rate · Tylko silne ataki prompt injection; przeprowadzony przez Gray Swan
4.7%
📅 24 lis 2025📄 Gray Swan (third-party) / Anthropic system card
Najlepszy wynik w branży. Gemini 3 Pro: 12,5%; GPT-5.1: 21,9%. Niższy = lepszy.
AIME 2025
accuracy · Z Python tools
100%
📅 24 lis 2025📄 The Neuron / multiple sources
Wynik 100% przy użyciu narzędzi Python; bez narzędzi wynik nie jest oficjalnie ujawniony przez Anthropic.
LAB-Bench FigQA
accuracy · Baseline; z narzędziami i reasoning: 69,2%
54.9%
📅 24 lis 2025📄 Anthropic system card (via Zvi Mowshowitz)
Benchmark zrozumienia rysunków naukowych.

Cennik

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Claude Opus 4.5 korzysta z publicznie opisywanych zabezpieczeń platformowych Anthropic. Informacje security dotyczą przede wszystkim Claude jako produktu, Anthropic API i funkcji enterprise, a nie osobnego security profile wyłącznie dla wersji Opus 4.5.

W praktyce warto traktować security Opus 4.5 jako inherited security from Anthropic platform and enterprise controls.
Aktualizacja: 15 mar 2026↗ Dokumentacja security