Robocikowo>ROBOCIKOWO
Claude Opus 4.6

Claude Opus 4.6

4.6 · Rodzina: Claude
Flagowy model językowy Anthropic z rodziny Claude 4, wydany 5 lutego 2026 r., wyróżniający się oknem kontekstowym 1M tokenów, adaptacyjnym myśleniem i zaawansowanymi zdolnościami agentycznymi.
✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Claude
Okno kontekstowe
1M
tokenów
Max output
128 000
tokenów
Data premiery
5 lutego 2026
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Claude Opus 4.6 to flagowy model językowy firmy Anthropic, wydany 5 lutego 2026 r. Jest bezpośrednim następcą Claude Opus 4.5 i należy do rodziny modeli Claude 4. Identyfikator modelu w API to claude-opus-4-6. Był najzdolniejszym ogólnodostępnym modelem Anthropic do momentu premiery Claude Opus 4.7 w kwietniu 2026 r.

Kluczowe ulepszenia względem Opus 4.5

Opus 4.6 wprowadza okno kontekstowe 1 miliona tokenów jako pierwsza w klasie modeli Opus, obok maksymalnego wyjścia 128 000 tokenów. Model planuje bardziej starannie, utrzymuje zadania agentyczne przez dłuższy czas, działa wiarygodniej w dużych repozytoriach kodu i lepiej wykrywa własne błędy podczas przeglądu kodu i debugowania. Przełomową zmianą jest jakościowy skok w odczytywaniu informacji z długich kontekstów: na benchmarku MRCR v2 w wariancie 8-igłowym przy 1M tokenów Opus 4.6 osiąga 76%, podczas gdy Sonnet 4.5 — jedynie 18,5%.

Model wprowadza adaptacyjne myślenie (adaptive thinking), w którym model sam ocenia na podstawie kontekstu, jak intensywnie korzystać z rozszerzonego rozumowania. Dostępne są cztery poziomy wysiłku: low, medium, high (domyślny) i max. Nowy mechanizm kompakcji kontekstu (context compaction) automatycznie podsumowuje starsze fragmenty konwersacji po stronie serwera, umożliwiając praktycznie nieograniczoną długość sesji agentycznych.

Nowe funkcje produktowe

W Claude Code wprowadzono zespoły agentów (agent teams), pozwalające na równoległą pracę wielu niezależnych instancji Claude nad różnymi fragmentami projektu z komunikacją peer-to-peer (Mailbox Protocol). W badanej wersji preview dostępny jest Claude w PowerPoint, który czyta układy slajdów, czcionki i szablony wzorcowe, generując prezentacje spójne z identyfikacją wizualną organizacji. Claude w Excel otrzymał znaczące ulepszenia. Dostępny jest też tryb szybki (fast mode) w wersji badawczej dla Opus 4.6, przyspieszający generowanie tokenów wyjściowych do 2,5× szybciej przy cenie 6× wyższej (30 USD / 150 USD za milion tokenów wejściowych/wyjściowych).

Bezpieczeństwo i zgodność

Według Anthropic Opus 4.6 wykazuje ogólny profil bezpieczeństwa co najmniej tak dobry jak jego poprzednik, Claude Opus 4.5, przy niskich wskaźnikach niezgodnego zachowania (oszustwo, sycofanctwo, współpraca z nadużyciami). Osiąga najniższy współczynnik nadmiernych odmów (over-refusal) spośród niedawno wydanych modeli Claude. Pełna ocena bezpieczeństwa dostępna jest w oficjalnej karcie systemowej Claude Opus 4.6.

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Claude
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, dokumenty

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
128 000
tokenów na odpowiedź
Knowledge cutoff
31 maj 2025
Data graniczna wiedzy
Licencja
Komercyjna (zastrzeżona, model zamknięty)
Wymagania sprzętowe
Model zamknięty, dostępny wyłącznie przez API. Brak możliwości lokalnego wdrożenia. Dostępny przez: Claude API (Anthropic), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry.
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimagedocuments
⬆ Wyjście (Output)
textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wykresów
Odczyt i interpretacja wykresów, tabel i diagramów.
Kategoria: vision
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning

Wyniki benchmarków

13 benchmarków
Terminal-Bench 2.0
pass@1 · Benchmark agentycznego kodowania i operacji systemowych w terminalu
65.4%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Najwyższy wynik wśród modeli frontier w dniu premiery według Anthropic. Wzrost z 59,3% (Opus 4.5).
Humanity's Last Exam (bez narzędzi)
accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej na poziomie frontier; bez dostępu do narzędzi zewnętrznych
40.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 30,8% (Opus 4.5). Pierwsze miejsce wśród frontier modeli w dniu premiery. Wynik zaktualizowany 23 lutego 2026 r. do 40,0% po poprawie wykrywania oszustw.
Humanity's Last Exam (z narzędziami)
accuracy · Wielodyscyplinarny benchmark wiedzy akademickiej z dostępem do narzędzi zewnętrznych
53.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026; zaktualizowane 23 lutego 2026
Wynik pierwotnie raportowany jako 53,1%, skorygowany do 53,0% 23 lutego 2026 r. po uruchomieniu ulepszonego pipeline wykrywania oszustw (3 dodatkowe przypadki wykluczone).
SWE-bench Verified
pass@1 · Zweryfikowany podzbiór 500 rzeczywistych zgłoszeń GitHub
80.8%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Nieznaczny spadek z 80,9% (Opus 4.5); Anthropic skupił optymalizację na innych obszarach.
GDPval-AA (Praca merytoryczna)
Wynik Elo · Benchmark Artificial Analysis mierzący wartość ekonomiczną pracy merytorycznej w obszarach finansów i prawa
1606Elo
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Wyprzedza GPT-5.2 o ok. 144 punkty Elo i Opus 4.5 o 190 punktów.
BrowseComp
accuracy · Benchmark mierzący zdolność modelu do lokalizacji trudno dostępnych informacji w Internecie; konfiguracja wieloagentowa przy max effort
84.0%
📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Najlepszy wynik wśród frontier modeli w dniu premiery według Anthropic.
ARC AGI 2
accuracy · Benchmark abstrakcyjnego rozumowania; użyto max effort z budżetem myślenia 120k
68.8%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 37,6% (Opus 4.5) — jeden z największych skoków na tym benchmarku w historii aktualizacji frontier modeli. Wyprzedza GPT-5.2 Pro (54,2%) i Gemini 3 Pro (45,1%).
GPQA Diamond
accuracy · Benchmark wiedzy naukowej na poziomie doktoranckim
91.3%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z 87,0% (Opus 4.5).
OSWorld
accuracy · Benchmark agentycznego sterowania interfejsem graficznym (computer use)
72.7%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie i karta systemowa, 5 lutego 2026
Wzrost z ok. 66,3% (Opus 4.5).
MRCR v2 (8 igieł, 1M tokenów)
accuracy · Benchmark wyszukiwania wielokrotnych faktów ukrytych w bardzo długim tekście; wariant 8-igłowy przy 1M tokenów
76.0%
📅 5 lut 2026📄 Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Wzrost z 18,5% (Sonnet 4.5). Opus 4.6 osiąga 93% przy 256K tokenów.
Finance Agent
accuracy · Benchmark wieloetapowej analizy finansowej
60.7%
📅 5 lut 2026📄 Vellum AI / Anthropic — oficjalne ogłoszenie, 5 lutego 2026
Prowadzi wśród porównywanych modeli w dniu premiery.
BigLaw Bench (Harvey)
accuracy · Benchmark prawny na zadaniach BigLaw; 40% wyników perfekcyjnych, 84% powyżej 0,8
90.2%
📅 5 lut 2026📄 Harvey / oficjalne ogłoszenie Anthropic, 5 lutego 2026
Najwyższy wynik BigLaw Bench spośród modeli Claude w dniu premiery.
MCP Atlas
accuracy · Benchmark wieloetapowego, skalowanego użycia narzędzi
75.8%
📅 5 lut 2026📄 Anthropic — karta systemowa, 5 lutego 2026; zrewidowane przez Scale AI
Wynik zaktualizowany przez Scale AI po zmianie metodologii oceniania (pierwotnie 59,5%). Opus 4.7 uzyskał 77,3% na tym benchmarku.

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Claude Opus 4.6 wykazuje profil bezpieczeństwa co najmniej tak dobry jak Opus 4.5, z niskimi wskaźnikami zachowań niezgodnych z polityką. Na Amazon Bedrock obowiązuje zasada zerowego dostępu operatora. Opcje rezydencji danych dostępne przez parametr inference_geo (mnożnik 1,1× dla wnioskowania wyłącznie w USA). Informacje o zabezpieczeniach i zgodności przedsiębiorstw: trust.anthropic.com.

Pełna ocena bezpieczeństwa dostępna w karcie systemowej Claude Opus 4.6 pod adresem anthropic.com/claude-opus-4-6-system-card. Opus 4.6 osiąga najniższy wskaźnik nadmiernych odmów (over-refusals) spośród niedawnych modeli Claude. Zwiększone kompetencje planowania mogą teoretycznie zwiększać zdolność do zaciemniania w przypadku niezgodności — kwestia ta jest omawiana w karcie systemowej.
Aktualizacja: 5 lut 2026↗ Dokumentacja security