Claude Opus 4.6

4.6 · Rodzina: Claude

Flagowy model językowy Anthropic z rodziny Claude 4, wydany 5 lutego 2026 r., wyróżniający się oknem kontekstowym 1M tokenów, adaptacyjnym myśleniem i zaawansowanymi zdolnościami agentycznymi.

✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Claude

Okno kontekstowe

tokenów

Max output

128 000

tokenów

Data premiery

5 lutego 2026

🏢AnthropicProducent

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Claude Opus 4.6 to flagowy model językowy firmy Anthropic, wydany 5 lutego 2026 r. Jest bezpośrednim następcą Claude Opus 4.5 i należy do rodziny modeli Claude 4. Identyfikator modelu w API to claude-opus-4-6. Był najzdolniejszym ogólnodostępnym modelem Anthropic do momentu premiery Claude Opus 4.7 w kwietniu 2026 r.

Kluczowe ulepszenia względem Opus 4.5

Opus 4.6 wprowadza okno kontekstowe 1 miliona tokenów jako pierwsza w klasie modeli Opus, obok maksymalnego wyjścia 128 000 tokenów. Model planuje bardziej starannie, utrzymuje zadania agentyczne przez dłuższy czas, działa wiarygodniej w dużych repozytoriach kodu i lepiej wykrywa własne błędy podczas przeglądu kodu i debugowania. Przełomową zmianą jest jakościowy skok w odczytywaniu informacji z długich kontekstów: na benchmarku MRCR v2 w wariancie 8-igłowym przy 1M tokenów Opus 4.6 osiąga 76%, podczas gdy Sonnet 4.5 — jedynie 18,5%.

Model wprowadza adaptacyjne myślenie (adaptive thinking), w którym model sam ocenia na podstawie kontekstu, jak intensywnie korzystać z rozszerzonego rozumowania. Dostępne są cztery poziomy wysiłku: low, medium, high (domyślny) i max. Nowy mechanizm kompakcji kontekstu (context compaction) automatycznie podsumowuje starsze fragmenty konwersacji po stronie serwera, umożliwiając praktycznie nieograniczoną długość sesji agentycznych.

Nowe funkcje produktowe

W Claude Code wprowadzono zespoły agentów (agent teams), pozwalające na równoległą pracę wielu niezależnych instancji Claude nad różnymi fragmentami projektu z komunikacją peer-to-peer (Mailbox Protocol). W badanej wersji preview dostępny jest Claude w PowerPoint, który czyta układy slajdów, czcionki i szablony wzorcowe, generując prezentacje spójne z identyfikacją wizualną organizacji. Claude w Excel otrzymał znaczące ulepszenia. Dostępny jest też tryb szybki (fast mode) w wersji badawczej dla Opus 4.6, przyspieszający generowanie tokenów wyjściowych do 2,5× szybciej przy cenie 6× wyższej (30 USD / 150 USD za milion tokenów wejściowych/wyjściowych).

Bezpieczeństwo i zgodność

Według Anthropic Opus 4.6 wykazuje ogólny profil bezpieczeństwa co najmniej tak dobry jak jego poprzednik, Claude Opus 4.5, przy niskich wskaźnikach niezgodnego zachowania (oszustwo, sycofanctwo, współpraca z nadużyciami). Osiąga najniższy współczynnik nadmiernych odmów (over-refusal) spośród niedawno wydanych modeli Claude. Pełna ocena bezpieczeństwa dostępna jest w oficjalnej karcie systemowej Claude Opus 4.6.

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Claude

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M

✓ Narzędzia

📥 Wejście: tekst, obraz, dokumenty

Specyfikacja techniczna

Okno kontekstowe

tokenów

Max output tokens

128 000

tokenów na odpowiedź

Knowledge cutoff

31 maj 2025

Data graniczna wiedzy

Licencja

Komercyjna (zastrzeżona, model zamknięty)

Wymagania sprzętowe

Model zamknięty, dostępny wyłącznie przez API. Brak możliwości lokalnego wdrożenia. Dostępny przez: Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry.

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimagedocuments

⬆ Wyjście (Output)

textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Wyniki benchmarków

13 benchmarków

Terminal-Bench 2.0

pass@1 · Benchmark agentycznego kodowania i operacji systemowych w terminalu

65.4%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026

Najwyższy wynik wśród modeli frontier w dniu premiery według Anthropic. Wzrost z 59,3% (Opus 4.5).

Humanity's Last Exam (bez narzędzi)

accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej na poziomie frontier; bez dostępu do narzędzi zewnętrznych

40.0%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026

Wzrost z 30,8% (Opus 4.5). Pierwsze miejsce wśród frontier modeli w dniu premiery. Wynik zaktualizowany 23 lutego 2026 r. do 40,0% po poprawie wykrywania oszustw.

Humanity's Last Exam (z narzędziami)

accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej z dostępem do narzędzi zewnętrznych

53.0%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026; zaktualizowane 23 lutego 2026

Wynik pierwotnie raportowany jako 53,1%, skorygowany do 53,0% 23 lutego 2026 r. po uruchomieniu ulepszonego pipeline wykrywania oszustw (3 dodatkowe przypadki wykluczone).

SWE-bench Verified

pass@1 · Zweryfikowany podzbiór 500 rzeczywistych zgłoszeń GitHub

80.8%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026

Nieznaczny spadek z 80,9% (Opus 4.5); Anthropic skupił optymalizację na innych obszarach.

GDPval-AA (Praca merytoryczna)

Wynik Elo · Benchmark Artificial Analysis mierzący wartość ekonomiczną pracy merytorycznej w obszarach finansów i prawa

1606Elo

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026

Wyprzedza GPT-5.2 o ok. 144 punkty Elo i Opus 4.5 o 190 punktów.

BrowseComp

accuracy · Benchmark mierzący zdolność modelu do lokalizacji trudno dostępnych informacji w Internecie; konfiguracja wieloagentowa przy max effort

84.0%

📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026

Najlepszy wynik wśród frontier modeli w dniu premiery według Anthropic.

ARC AGI 2

accuracy · Benchmark abstrakcyjnego rozumowania; użyto max effort z budżetem myślenia 120k

68.8%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026

Wzrost z 37,6% (Opus 4.5) — jeden z największych skoków na tym benchmarku w historii aktualizacji frontier modeli. Wyprzedza GPT-5.2 Pro (54,2%) i Gemini 3 Pro (45,1%).

GPQA Diamond

accuracy · Benchmark wiedzy naukowej na poziomie doktoranckim

91.3%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026

Wzrost z 87,0% (Opus 4.5).

OSWorld

accuracy · Benchmark agentycznego sterowania interfejsem graficznym (computer use)

72.7%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026

Wzrost z ok. 66,3% (Opus 4.5).

MRCR v2 (8 igieł, 1M tokenów)

accuracy · Benchmark wyszukiwania wielokrotnych faktów ukrytych w bardzo długim tekście; wariant 8-igłowy przy 1M tokenów

76.0%

📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026

Wzrost z 18,5% (Sonnet 4.5). Opus 4.6 osiąga 93% przy 256K tokenów.

Finance Agent

accuracy · Benchmark wieloetapowej analizy finansowej

60.7%

📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026

Prowadzi wśród porównywanych modeli w dniu premiery.

BigLaw Bench (Harvey)

accuracy · Benchmark prawny na zadaniach BigLaw; 40% wyników perfekcyjnych, 84% powyżej 0,8

90.2%

📅 5 lut 2026📄 Harvey / oficjalne ogłoszenie Anthropic, 5 lutego 2026

Najwyższy wynik BigLaw Bench spośród modeli Claude w dniu premiery.

MCP Atlas

accuracy · Benchmark wieloetapowego, skalowanego użycia narzędzi

75.8%

📅 5 lut 2026📄 Anthropic — karta systemowa, 5 lutego 2026; zrewidowane przez Scale AI

Wynik zaktualizowany przez Scale AI po zmianie metodologii oceniania (pierwotnie 59,5%). Opus 4.7 uzyskał 77,3% na tym benchmarku.

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise

✓ Zweryfikowane informacje enterprise

Claude Opus 4.6 wykazuje profil bezpieczeństwa co najmniej tak dobry jak Opus 4.5, z niskimi wskaźnikami zachowań niezgodnych z polityką. Na Amazon Bedrock obowiązuje zasada zerowego dostępu operatora. Opcje rezydencji danych dostępne przez parametr inference_geo (mnożnik 1,1× dla wnioskowania wyłącznie w USA). Informacje o zabezpieczeniach i zgodności przedsiębiorstw: trust.anthropic.com.

Pełna ocena bezpieczeństwa dostępna w karcie systemowej Claude Opus 4.6 pod adresem anthropic.com/claude-opus-4-6-system-card. Opus 4.6 osiąga najniższy wskaźnik nadmiernych odmów (over-refusals) spośród niedawnych modeli Claude. Zwiększone kompetencje planowania mogą teoretycznie zwiększać zdolność do zaciemniania w przypadku niezgodności — kwestia ta jest omawiana w karcie systemowej.

Aktualizacja: 5 lut 2026↗ Dokumentacja security

Źródła i powiązane strony

7 źródeł

BlogIntroducing Claude Opus 4.6 — Anthropicanthropic.com DocsModels overview — Claude API Docsplatform.claude.com DocsPricing — Claude API Docsplatform.claude.com DocsClaude Platform release notes — Claude API Docsplatform.claude.com DocsContext windows — Claude API Docsplatform.claude.com DocsHow up-to-date is Claude's training data — Claude Help Centersupport.claude.com WebClaude Opus 4.6 — strona produktu Anthropicanthropic.com

Przeglądaj powiązane tematy

📁 Claude Wszystkie modele llm Wszystkie modele multimodal model