Claude Opus 4.5

Opus 4.5 · Rodzina: Claude

Flagowy model AI Anthropic (24.11.2025). Pierwszy model przekraczający 80% na SWE-bench Verified (80,9%). Wyróżnia się parametrem effort, extended thinking i odpornością na prompt injection.

✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Claude

Okno kontekstowe

200K

tokenów

Parametry

nieujawnione publicznie

parametrów

Max output

64 000

tokenów

Data premiery

24 listopada 2025

🏢AnthropicProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Claude Opus 4.5 to flagowy model językowy firmy Anthropic, wydany 24 listopada 2025 roku. Identyfikator modelu w API: claude-opus-4-5-20251101. Model należy do rodziny Claude 4 i pełnił rolę najzdolniejszego modelu Anthropic do premiery Claude Opus 4.6.

Kluczowe cechy

Opus 4.5 wprowadza parametr effort sterujący intensywnością wnioskowania, rozszerzone myślenie (extended thinking), zaawansowaną obsługę komputera (computer use) oraz tryb wielokrotnego wywoływania narzędzi. Okno kontekstowe wynosi 200 000 tokenów, a maksymalna liczba tokenów wyjściowych — 64 000. Graniczna data wiedzy modelu: maj 2025.

Wyniki benchmarków

Opus 4.5 jest pierwszym modelem, który przekroczył próg 80% na SWE-bench Verified (80,9%), wyprzedzając GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%). Osiąga 59,3% na Terminal-Bench 2.0, 37,6% na ARC-AGI-2, 66,3% na OSWorld (trzykrotna poprawa względem Claude 3.5) oraz 87,0% na GPQA Diamond. Na benchmarku wieloetapowego użycia narzędzi MCP Atlas uzyskuje 62,3% — znacząco powyżej drugiego wyniku (Claude Sonnet 4.5, 43,8%).

Bezpieczeństwo

Model wdrożony pod standardem AI Safety Level 3 (ASL-3). Według Anthropic to najlepiej wyrównany ich model w momencie premiery. Najlepsza w branży odporność na prompt injection — 4,7% skuteczności ataku (Gray Swan), wobec 12,5% dla Gemini 3 Pro i 21,9% dla GPT-5.1 (niższy = lepszy). Zastosowano RLHF, RLAIF (Constitutional AI) oraz „inoculation strategy" przeciwko reward hackingowi.

Dostępność i ceny

Model zamknięty (closed weights), dostępny przez Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI oraz Microsoft Foundry. Ceny: 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych — obniżka o ok. 67% względem Opus 4.1 (15/75 USD).

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Claude

Zastosowania

Chatboty Analiza dokumentów Analiza danych Streszczanie Tłumaczenie

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 200K

🧩 Parametry: nieujawnione publicznie

✓ Narzędzia

📥 Wejście: tekst, obraz, dokumenty

Platformy

Anthropic Claude API Vertex AI Amazon Bedrock Microsoft Azure AI Foundry

Specyfikacja techniczna

Okno kontekstowe

200K

tokenów

Parametry

nieujawnione publicznie

parametrów

Max output tokens

64 000

tokenów na odpowiedź

Knowledge cutoff

1 maj 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostęp przez infrastrukturę Anthropic, AWS Bedrock lub Google Vertex AI. Brak lokalnego uruchomienia i brak otwartych wag.

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimagedocuments

⬆ Wyjście (Output)

textcodestructured_datasummariesreports

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Dziedziny zastosowań

Chatboty Analiza dokumentów Analiza danych Streszczanie Tłumaczenie

Wyniki benchmarków

16 benchmarków

SWE-bench Verified

accuracy · Bez thinking budget; domyślny effort (high); uśrednienie z 5 niezależnych prób; poprawione środowisko hostingowe (Terminus-2)

80.9%

📅 24 lis 2025📄 Anthropic – oficjalny blog i system card (claude-opus-4-5)

Pierwszy model AI przekraczający próg 80% na SWE-bench Verified. Wynik wyższy niż GPT-5.1 (76,3%) i Gemini 3 Pro (76,2%).

Terminal-Bench 2.0

accuracy · 128K thinking budget; uśrednienie z 5 prób

59.3%

📅 24 lis 2025📄 Anthropic system card / Vellum AI analysis

Lepszy od Gemini 3 Pro (54,2%) i GPT-5.1 (47,6%). Najwyższy wynik Terminal-Bench Hard (44%) spośród wszystkich modeli w testach Artificial Analysis.

ARC-AGI-2

accuracy

37.6%

📅 24 lis 2025📄 Anthropic system card / Vellum AI

Ponad dwukrotnie lepszy od GPT-5.1 (17,6%); wyższy niż Gemini 3 Pro (31,1%). Znacząca poprawa w abstrakcyjnym rozumowaniu niewerbalnym.

OSWorld

accuracy

66.3%

📅 24 lis 2025📄 Anthropic system card / DataCamp

Trzykrotna poprawa względem Claude 3.5 (22%). Najlepszy wynik Anthropic dla computer use w momencie premiery.

GPQA Diamond

accuracy · Z extended thinking (64K token budget)

87.0%

📅 24 lis 2025📄 Vellum AI / Artificial Analysis

Nieco niższy od Gemini 3 Pro (91,9%) i GPT-5.1 (88,1%). Mocny wynik na poziomie PhD.

Humanity's Last Exam

accuracy · Z web search

43.2%

📅 24 lis 2025📄 Vellum AI

Bez web search: ~30,8%. Gemini 3 Pro osiąga ~37,5% bez narzędzi, ~45,2% z narzędziami.

MMMLU

accuracy

90.8%

📅 24 lis 2025📄 Vellum AI / Anthropic system card

Nieco niższy od Gemini 3 Pro (91,8%) i GPT-5.1 (91,0%). Wyższy niż Claude Sonnet 4.5 (89,1%).

MMMU

accuracy · Z extended thinking

80.7%

📅 24 lis 2025📄 Vellum AI / Anthropic system card

Najniższy wynik w klasie (GPT-5.1: 85,4%, Gemini 3 Pro: 81,0%).

MCP Atlas (scaled tool use)

accuracy

62.3%

📅 24 lis 2025📄 Anthropic system card / DataCamp

Duża przewaga: drugi wynik to Claude Sonnet 4.5 z 43,8%. Benchmark oceniający użycie wielu narzędzi jednocześnie.

SpreadsheetBench

accuracy

64.25%

📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)

Benchmark oceniający automatyzację arkuszy kalkulacyjnych.

CyberGym

pass@1

50.6%

📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong / AIToolsReview (dane z system card)

1507 zadań z rzeczywistymi podatnościami CVE w projektach open source.

FinanceAgent

accuracy · Wynik zewnętrzny; wewnętrzny: 61,1%

55.2%

📅 24 lis 2025📄 Zvi Mowshowitz / LessWrong (dane z system card)

Benchmark oceniający złożoną analizę finansową.

Vending-Bench 2

final_balance

$4,967.06USD

📅 24 lis 2025📄 Anthropic system card / Vellum AI

23% wzrost względem Sonnet 4.5 ($3 849,74). Gemini 3 Pro prowadzi z $5 478,16. Benchmark długoterminowego planowania strategicznego (rok symulowanego biznesu).

Gray Swan Prompt Injection

attack_success_rate · Tylko silne ataki prompt injection; przeprowadzony przez Gray Swan

4.7%

📅 24 lis 2025📄 Gray Swan (third-party) / Anthropic system card

Najlepszy wynik w branży. Gemini 3 Pro: 12,5%; GPT-5.1: 21,9%. Niższy = lepszy.

AIME 2025

accuracy · Z Python tools

100%

📅 24 lis 2025📄 The Neuron / multiple sources

Wynik 100% przy użyciu narzędzi Python; bez narzędzi wynik nie jest oficjalnie ujawniony przez Anthropic.

LAB-Bench FigQA

accuracy · Baseline; z narzędziami i reasoning: 69,2%

54.9%

📅 24 lis 2025📄 Anthropic system card (via Zvi Mowshowitz)

Benchmark zrozumienia rysunków naukowych.

Cennik

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer

Forma modelu (Model Form)

RMReasoning model MLMultimodal LLM

Techniki trenowania (Training Techniques)

ITInstruction Tuning COCoT RLRLHF

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach

☁Anthropic Claude APIPlatforma ☁Vertex AIPlatforma ☁Amazon BedrockPlatforma ☁Microsoft Azure AI FoundryPlatforma

🔒 Security / Enterprise

✓ Zweryfikowane informacje enterprise

Claude Opus 4.5 korzysta z publicznie opisywanych zabezpieczeń platformowych Anthropic. Informacje security dotyczą przede wszystkim Claude jako produktu, Anthropic API i funkcji enterprise, a nie osobnego security profile wyłącznie dla wersji Opus 4.5.

W praktyce warto traktować security Opus 4.5 jako inherited security from Anthropic platform and enterprise controls.

Aktualizacja: 15 mar 2026↗ Dokumentacja security

Źródła i powiązane strony

11 źródeł

BlogIntroducing Claude Opus 4.5anthropic.com DocsModels overview - Claude API Docsdocs.anthropic.com DocsPricing - Claude API Docsdocs.anthropic.com DocsComputer use tool - Claude API Docsdocs.anthropic.com WebAnthropic Transparency Hubanthropic.com RaportClaude Opus 4.5 System Card – Anthropicanthropic.com DocsWhat's new in Claude 4.5 – Claude API Docsplatform.claude.com WebClaude Opus 4.5 on Vertex AI – Google Cloud Blogcloud.google.com WebIntroducing Claude Opus 4.5 in Microsoft Foundry – Azure Blogazure.microsoft.com WebClaude Opus 4.5 now in Amazon Bedrock – AWS Blogaws.amazon.com WebClaude Opus 4.5 – Azure AI Foundry Model Catalogai.azure.com

Przeglądaj powiązane tematy

📁 Claude 🌐 Chatboty 🌐 Analiza dokumentów 🌐 Analiza danych 🌐 Streszczanie 🧠 Transformer 🧠 Reasoning model 🧠 Multimodal LLM ☁ Anthropic Claude API ☁ Vertex AI Wszystkie modele llm Wszystkie modele multimodal model