Flagowy model językowy Anthropic z rodziny Claude 4, wydany 5 lutego 2026 r., wyróżniający się oknem kontekstowym 1M tokenów, adaptacyjnym myśleniem i zaawansowanymi zdolnościami agentycznymi.
Okno kontekstowe
1M
tokenów
Max output
128 000
tokenów
Data premiery
5 lutego 2026
Dostęp:APIHostedWdrożenie:☁ Cloud
Przegląd
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
✓ Narzędzia
📥 Wejście: tekst, obraz, dokumenty
Specyfikacja techniczna
Okno kontekstowe
1M
tokenów
Max output tokens
128 000
tokenów na odpowiedź
Knowledge cutoff
31 maj 2025
Data graniczna wiedzy
Licencja
Komercyjna (zastrzeżona, model zamknięty)
Wymagania sprzętowe
Model zamknięty, dostępny wyłącznie przez API. Brak możliwości lokalnego wdrożenia. Dostępny przez: Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry.
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_data
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wykresów
Odczyt i interpretacja wykresów, tabel i diagramów.
Kategoria: vision
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Wyniki benchmarków
13 benchmarków
Terminal-Bench 2.0
pass@1 · Benchmark agentycznego kodowania i operacji systemowych w terminalu
65.4%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Najwyższy wynik wśród modeli frontier w dniu premiery według Anthropic. Wzrost z 59,3% (Opus 4.5).
Humanity's Last Exam (bez narzędzi)
accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej na poziomie frontier; bez dostępu do narzędzi zewnętrznych
40.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 30,8% (Opus 4.5). Pierwsze miejsce wśród frontier modeli w dniu premiery. Wynik zaktualizowany 23 lutego 2026 r. do 40,0% po poprawie wykrywania oszustw.
Humanity's Last Exam (z narzędziami)
accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej z dostępem do narzędzi zewnętrznych
53.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026; zaktualizowane 23 lutego 2026
Wynik pierwotnie raportowany jako 53,1%, skorygowany do 53,0% 23 lutego 2026 r. po uruchomieniu ulepszonego pipeline wykrywania oszustw (3 dodatkowe przypadki wykluczone).
SWE-bench Verified
pass@1 · Zweryfikowany podzbiór 500 rzeczywistych zgłoszeń GitHub
80.8%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Nieznaczny spadek z 80,9% (Opus 4.5); Anthropic skupił optymalizację na innych obszarach.
GDPval-AA (Praca merytoryczna)
Wynik Elo · Benchmark Artificial Analysis mierzący wartość ekonomiczną pracy merytorycznej w obszarach finansów i prawa
1606Elo
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Wyprzedza GPT-5.2 o ok. 144 punkty Elo i Opus 4.5 o 190 punktów.
BrowseComp
accuracy · Benchmark mierzący zdolność modelu do lokalizacji trudno dostępnych informacji w Internecie; konfiguracja wieloagentowa przy max effort
84.0%
📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Najlepszy wynik wśród frontier modeli w dniu premiery według Anthropic.
ARC AGI 2
accuracy · Benchmark abstrakcyjnego rozumowania; użyto max effort z budżetem myślenia 120k
68.8%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 37,6% (Opus 4.5) — jeden z największych skoków na tym benchmarku w historii aktualizacji frontier modeli. Wyprzedza GPT-5.2 Pro (54,2%) i Gemini 3 Pro (45,1%).
GPQA Diamond
accuracy · Benchmark wiedzy naukowej na poziomie doktoranckim
91.3%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 87,0% (Opus 4.5).
OSWorld
accuracy · Benchmark agentycznego sterowania interfejsem graficznym (computer use)
72.7%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z ok. 66,3% (Opus 4.5).
MRCR v2 (8 igieł, 1M tokenów)
accuracy · Benchmark wyszukiwania wielokrotnych faktów ukrytych w bardzo długim tekście; wariant 8-igłowy przy 1M tokenów
76.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Wzrost z 18,5% (Sonnet 4.5). Opus 4.6 osiąga 93% przy 256K tokenów.
Finance Agent
accuracy · Benchmark wieloetapowej analizy finansowej
60.7%
📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Prowadzi wśród porównywanych modeli w dniu premiery.
BigLaw Bench (Harvey)
accuracy · Benchmark prawny na zadaniach BigLaw; 40% wyników perfekcyjnych, 84% powyżej 0,8
90.2%
📅 5 lut 2026📄 Harvey / oficjalne ogłoszenie Anthropic, 5 lutego 2026
Najwyższy wynik BigLaw Bench spośród modeli Claude w dniu premiery.
MCP Atlas
accuracy · Benchmark wieloetapowego, skalowanego użycia narzędzi
75.8%
📅 5 lut 2026📄 Anthropic — karta systemowa, 5 lutego 2026; zrewidowane przez Scale AI
Wynik zaktualizowany przez Scale AI po zmianie metodologii oceniania (pierwotnie 59,5%). Opus 4.7 uzyskał 77,3% na tym benchmarku.
Cennik
Wdrożenie i bezpieczeństwo
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
Claude Opus 4.6 wykazuje profil bezpieczeństwa co najmniej tak dobry jak Opus 4.5, z niskimi wskaźnikami zachowań niezgodnych z polityką. Na Amazon Bedrock obowiązuje zasada zerowego dostępu operatora. Opcje rezydencji danych dostępne przez parametr inference_geo (mnożnik 1,1× dla wnioskowania wyłącznie w USA). Informacje o zabezpieczeniach i zgodności przedsiębiorstw: trust.anthropic.com.
Pełna ocena bezpieczeństwa dostępna w karcie systemowej Claude Opus 4.6 pod adresem anthropic.com/claude-opus-4-6-system-card. Opus 4.6 osiąga najniższy wskaźnik nadmiernych odmów (over-refusals) spośród niedawnych modeli Claude. Zwiększone kompetencje planowania mogą teoretycznie zwiększać zdolność do zaciemniania w przypadku niezgodności — kwestia ta jest omawiana w karcie systemowej.
Aktualizacja: 5 lut 2026↗ Dokumentacja security
Źródła i powiązane strony
7 źródeł
BlogIntroducing Claude Opus 4.6 — AnthropicDocsModels overview — Claude API DocsDocsPricing — Claude API DocsDocsClaude Platform release notes — Claude API DocsDocsContext windows — Claude API DocsDocsHow up-to-date is Claude's training data — Claude Help CenterWebClaude Opus 4.6 — strona produktu Anthropic
Przeglądaj powiązane tematy
