Kimi K2.6

K2.6

Otwarty multimodalny model agentowy Moonshot AI typu MoE z 1 bln parametrów (32 mld aktywnych), 256K oknem kontekstu i natywną kwantyzacją INT4.

✓ Aktywny✓ Publiczny dostęp⚖ Open weightsModel multimodalnyModel rozumowaniaModel używający narzędzi

Okno kontekstowe

256K

tokenów

Parametry

1T total / 32B active

parametrów

Max output

98 304

tokenów

Data premiery

21 kwietnia 2026

🏢Moonshot AIProducent

Dostęp:APIDownloadHostedWdrożenie:☁ Cloud💻 Lokalnie

Przegląd

Kimi K2.6 to otwarty, natywnie multimodalny model agentowy stworzony przez Moonshot AI, opublikowany w kwietniu 2026 roku. Model rozwija architekturę i podejście znane z wcześniejszego Kimi K2.5 (na której rozszerza możliwości w długoterminowym kodowaniu, designu prowadzonym kodem, proaktywnej autonomicznej egzekucji i orkiestracji rojów agentów).

Kluczowe cechy

Long-Horizon Coding — istotne ulepszenia w złożonych zadaniach kodowania end-to-end (Rust, Go, Python; front-end, DevOps, optymalizacja wydajności).
Coding-Driven Design — przekształcanie prostych promptów i wejść wizualnych w produkcyjne interfejsy i lekkie workflow full-stack.
Elevated Agent Swarm — skalowanie horyzontalne do 300 sub-agentów wykonujących 4 000 skoordynowanych kroków, z dynamiczną dekompozycją zadań na równoległe podzadania.
Proactive & Open Orchestration — wsparcie dla utrzymywanych w tle agentów 24/7, proaktywnie zarządzających harmonogramami, wykonujących kod i orkiestrujących operacje cross-platform.

Architektura

Kimi K2.6 to model Mixture-of-Experts: 1 bln parametrów total, 32 mld aktywnych, 61 warstw (w tym 1 dense), 384 ekspertów na warstwę MoE, 8 ekspertów wybieranych per token i 1 ekspert współdzielony. Mechanizm uwagi to MLA (Multi-head Latent Attention) z 64 głowami i ukrytym wymiarem 7168. Aktywacja: SwiGLU. Słownik: 160K. Kontekst: 256K tokenów. Enkoder wizyjny: MoonViT (400 mln parametrów). Model wykorzystuje natywną kwantyzację INT4 (tak samo jak Kimi K2 Thinking).

Tryby pracy i dostęp

Model obsługuje tryby Thinking (rekomendowana temperatura 1.0) i Instant (rekomendowana temperatura 0.6) oraz preserve_thinking (zachowywanie rozumowania między turami w trybie agenta kodującego). Wagi są publikowane na licencji Modified MIT. API jest dostępne na platform.moonshot.ai (kompatybilne z OpenAI i Anthropic). Rekomendowane silniki inferencji: vLLM, SGLang, KTransformers. Dedykowany framework agenta kodującego: Kimi Code CLI (kimi.com/code).

Klasyfikacja

Model multimodalnyModel rozumowaniaModel używający narzędzi

Dostęp i wdrożenie

APIPobieranieHostowane

ChmuraLokalnie

Wagi: Open weights

Kluczowe parametry

📏 Kontekst: 256K

🧩 Parametry: 1T total / 32B active

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz, wideo

Specyfikacja techniczna

Okno kontekstowe

256K

tokenów

Parametry

1T total / 32B active

parametrów

Max output tokens

98 304

tokenów na odpowiedź

Licencja

Modified MIT License

Wymagania sprzętowe

Rekomendowane silniki inferencji: vLLM, SGLang, KTransformers. Wymaga środowiska transformers >=4.57.1, <5.0.0. Wagi dostępne w formatach safetensors / compressed-tensors z natywną kwantyzacją INT4.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimagevideo

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Zdolności agentowe

Zdolność modelu do autonomicznego planowania i wykonywania wieloetapowych zadań poprzez sekwencyjne użycie narzędzi, utrzymywanie kontekstu i adaptację do wyników pośrednich.

Kategoria: planning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność modelu do analizy i interpretacji treści wideo — rozpoznawania akcji, ruchu, zdarzeń oraz relacji między obiektami w czasie.

Kategoria: video

Obsługa komputera

Zdolność modelu do obsługi interfejsu komputera poprzez interpretację zrzutów ekranu oraz generowanie akcji takich jak kliknięcia, wpisywanie tekstu i nawigacja po aplikacjach.

Kategoria: planning

Równoległe wywołania narzędzi

Zdolność do jednoczesnego wywoływania wielu narzędzi zewnętrznych w trakcie generowania odpowiedzi.

Kategoria: reasoning

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Enkoder wizyjny

Zdolność modelu do kodowania obrazów i klatek wideo w gęste reprezentacje (embeddingi), wykorzystywane do dalszych zadań lub jako backbone dla modeli wizyjno-językowych.

Kategoria: vision

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Wyniki benchmarków

13 benchmarków

Humanity's Last Exam (HLE)

accuracy · z narzędziami (search, code-interpreter, web-browsing); HLE-Full

54.0%