Flagowy model AI Anthropic (24.11.2025). Pierwszy model przekraczający 80% na SWE-bench Verified (80,9%). Wyróżnia się parametrem effort, extended thinking i odpornością na prompt injection.
Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output
64 000
tokenów
Data premiery
24 listopada 2025
Dostęp:APIHostedWdrożenie:☁ Cloud
Przegląd
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 200K
🧩 Parametry: nieujawnione publicznie
✓ Narzędzia
📥 Wejście: tekst, obraz, dokumenty
Specyfikacja techniczna
Okno kontekstowe
200K
tokenów
Parametry
nieujawnione publicznie
parametrów
Max output tokens
64 000
tokenów na odpowiedź
Knowledge cutoff
1 maj 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostęp przez infrastrukturę Anthropic, AWS Bedrock lub Google Vertex AI. Brak lokalnego uruchomienia i brak otwartych wag.
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_datasummariesreports
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wykresów
Odczyt i interpretacja wykresów, tabel i diagramów.
Kategoria: vision
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Dziedziny zastosowań
Wyniki benchmarków
16 benchmarków
SWE-bench Verified
accuracy · Bez thinking budget; domyślny effort (high); uśrednienie z 5 niezależnych prób; poprawione środowisko hostingowe (Terminus-2)
80.9%
📅 24 lis 2025📄 Anthropic – oficjalny blog i system card (claude-opus-4-5)
Pierwszy model AI przekraczający próg 80% na SWE-bench Verified. Wynik wyższy niż GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%).
Terminal-Bench 2.0
accuracy · 128K thinking budget; uśrednienie z 5 prób
59.3%
📅 24 lis 2025📄 Anthropic system card / Vellum AI analysis
Lepszy od Gemini 3 Pro (54,2%) i GPT-5.1 (47,6%). Najwyższy wynik Terminal-Bench Hard (44%) spośród wszystkich modeli w testach Artificial Analysis.
ARC-AGI-2
accuracy
37.6%
📅 24 lis 2025📄 Anthropic system card / Vellum AI
Ponad dwukrotnie lepszy od GPT-5.1 (17,6%); wyższy niż Gemini 3 Pro (31,1%). Znacząca poprawa w abstrakcyjnym rozumowaniu niewerbalnym.
OSWorld
accuracy
66.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Trzykrotna poprawa względem Claude 3.5 (22%). Najlepszy wynik Anthropic dla computer use w momencie premiery.
GPQA Diamond
accuracy · Z extended thinking (64K token budget)
87.0%
📅 24 lis 2025📄 Vellum AI / Artificial Analysis
Nieco niższy od Gemini 3 Pro (91,9%) i GPT-5.1 (88,1%). Mocny wynik na poziomie PhD.
Humanity's Last Exam
accuracy · Z web search
43.2%
📅 24 lis 2025📄 Vellum AI
Bez web search: ~30,8%. Gemini 3 Pro osiąga ~37,5% bez narzędzi, ~45,2% z narzędziami.
MMMLU
accuracy
90.8%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Nieco niższy od Gemini 3 Pro (91,8%) i GPT-5.1 (91,0%). Wyższy niż Claude Sonnet 4.5 (89,1%).
MMMU
accuracy · Z extended thinking
80.7%
📅 24 lis 2025📄 Vellum AI / Anthropic system card
Najniższy wynik w klasie (GPT-5.1: 85,4%, Gemini 3 Pro: 81,0%).
MCP Atlas (scaled tool use)
accuracy
62.3%
📅 24 lis 2025📄 Anthropic system card / DataCamp
Duża przewaga: drugi wynik to Claude Sonnet 4.5 z 43,8%. Benchmark oceniający użycie wielu narzędzi jednocześnie.
SpreadsheetBench
accuracy
64.25%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający automatyzację arkuszy kalkulacyjnych.
CyberGym
pass@1
50.6%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong / AIToolsReview (dane z system card)
1507 zadań z rzeczywistymi podatnościami CVE w projektach open source.
FinanceAgent
accuracy · Wynik zewnętrzny; wewnętrzny: 61,1%
55.2%
📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)
Benchmark oceniający złożoną analizę finansową.
Vending-Bench 2
final_balance
$4,967.06USD
📅 24 lis 2025📄 Anthropic system card / Vellum AI
23% wzrost względem Sonnet 4.5 ($3 849,74). Gemini 3 Pro prowadzi z $5 478,16. Benchmark długoterminowego planowania strategicznego (rok symulowanego biznesu).
Gray Swan Prompt Injection
attack_success_rate · Tylko silne ataki prompt injection; przeprowadzony przez Gray Swan
4.7%
📅 24 lis 2025📄 Gray Swan (third-party) / Anthropic system card
Najlepszy wynik w branży. Gemini 3 Pro: 12,5%; GPT-5.1: 21,9%. Niższy = lepszy.
AIME 2025
accuracy · Z Python tools
100%
📅 24 lis 2025📄 The Neuron / multiple sources
Wynik 100% przy użyciu narzędzi Python; bez narzędzi wynik nie jest oficjalnie ujawniony przez Anthropic.
LAB-Bench FigQA
accuracy · Baseline; z narzędziami i reasoning: 69,2%
54.9%
📅 24 lis 2025📄 Anthropic system card (via Zvi Mowshowitz)
Benchmark zrozumienia rysunków naukowych.
Cennik
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
Claude Opus 4.5 korzysta z publicznie opisywanych zabezpieczeń platformowych Anthropic. Informacje security dotyczą przede wszystkim Claude jako produktu, Anthropic API i funkcji enterprise, a nie osobnego security profile wyłącznie dla wersji Opus 4.5.
W praktyce warto traktować security Opus 4.5 jako inherited security from Anthropic platform and enterprise controls.
Aktualizacja: 15 mar 2026↗ Dokumentacja security
Źródła i powiązane strony
11 źródeł
BlogIntroducing Claude Opus 4.5DocsModels overview - Claude API DocsDocsPricing - Claude API DocsDocsComputer use tool - Claude API DocsWebAnthropic Transparency HubRaportClaude Opus 4.5 System Card – AnthropicDocsWhat's new in Claude 4.5 – Claude API DocsWebClaude Opus 4.5 on Vertex AI – Google Cloud BlogWebIntroducing Claude Opus 4.5 in Microsoft Foundry – Azure BlogWebClaude Opus 4.5 now in Amazon Bedrock – AWS BlogWebClaude Opus 4.5 – Azure AI Foundry Model Catalog
