Gemini 3.1 Pro

3.1 Pro · Rodzina: Gemini

Najbardziej zaawansowany model ogólnego zastosowania Google DeepMind z rodziny Gemini 3.1 – multimodalny model z rozszerzonymi możliwościami rozumowania, kodowania agentycznego i długiego kontekstu.

⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini

Okno kontekstowe

tokenów

Max output

65 536

tokenów

Data premiery

29 kwietnia 2026

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.1 Pro to model AI opracowany przez Google DeepMind, ogłoszony 29 kwietnia 2026 roku jako następca Gemini 3 Pro. Jest to multimodalny model obsługujący wejście tekstowe, obrazy, wideo, audio oraz dokumenty PDF, a na wyjściu generujący tekst.

Model dysponuje oknem kontekstowym do 1 miliona tokenów i maksymalnym wyjściem 64 000 tokenów. Obsługuje narzędzia takie jak wywoływanie funkcji, strukturyzowane wyjście, wyszukiwanie jako narzędzie oraz wykonywanie kodu. Dostępny jest przez Gemini App, Google Cloud/Vertex AI, Google AI Studio, Gemini API, Google AI Mode oraz Google Antigravity.

Granica wiedzy modelu to styczeń 2025. Model udostępniony w fazie preview. Szczególnie silny w agentycznym kodowaniu (SWE-Bench 80.6%), rozumowaniu (ARC-AGI-2 77.1%) oraz zadaniach długiego kontekstu (MRCR v2 128k: 84.9%).

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Gemini

Zastosowania

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo…

Platformy

Vertex AI

Specyfikacja techniczna

Okno kontekstowe

tokenów

Max output tokens

65 536

tokenów na odpowiedź

Knowledge cutoff

1 sty 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio, Google Antigravity).

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideodocuments

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Dziedziny zastosowań

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych Asystent wyszukiwania

Wyniki benchmarków

18 benchmarków

Humanity's Last Exam

accuracy · Bez narzędzi, Gemini 3.1 Pro Thinking (High)

44.4%%