Robocikowo>ROBOCIKOWO
Gemini 3.1 Pro

Gemini 3.1 Pro

3.1 Pro · Rodzina: Gemini
Najbardziej zaawansowany model ogólnego zastosowania Google DeepMind z rodziny Gemini 3.1 – multimodalny model z rozszerzonymi możliwościami rozumowania, kodowania agentycznego i długiego kontekstu.
⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini
Okno kontekstowe
1M
tokenów
Max output
65 536
tokenów
Data premiery
29 kwietnia 2026
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.1 Pro to model AI opracowany przez Google DeepMind, ogłoszony 29 kwietnia 2026 roku jako następca Gemini 3 Pro. Jest to multimodalny model obsługujący wejście tekstowe, obrazy, wideo, audio oraz dokumenty PDF, a na wyjściu generujący tekst.

Model dysponuje oknem kontekstowym do 1 miliona tokenów i maksymalnym wyjściem 64 000 tokenów. Obsługuje narzędzia takie jak wywoływanie funkcji, strukturyzowane wyjście, wyszukiwanie jako narzędzie oraz wykonywanie kodu. Dostępny jest przez Gemini App, Google Cloud/Vertex AI, Google AI Studio, Gemini API, Google AI Mode oraz Google Antigravity.

Granica wiedzy modelu to styczeń 2025. Model udostępniony w fazie preview. Szczególnie silny w agentycznym kodowaniu (SWE-Bench 80.6%), rozumowaniu (ARC-AGI-2 77.1%) oraz zadaniach długiego kontekstu (MRCR v2 128k: 84.9%).

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo
Platformy

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio, Google Antigravity).
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocuments
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning

Wyniki benchmarków

18 benchmarków
Humanity's Last Exam
accuracy · Bez narzędzi, Gemini 3.1 Pro Thinking (High)
44.4%%
📄 https://deepmind.google/models/gemini/pro/
Pełny zestaw (text + MM). Bez narzędzi.
Humanity's Last Exam
accuracy · Z wyszukiwaniem (blocklist) i wykonaniem kodu, Gemini 3.1 Pro Thinking (High)
51.4%%
📄 https://deepmind.google/models/gemini/pro/
Pełny zestaw (text + MM). Z wyszukiwaniem i wykonaniem kodu.
ARC-AGI-2
accuracy · ARC Prize Verified, Gemini 3.1 Pro Thinking (High)
77.1%%
📄 https://deepmind.google/models/gemini/pro/
Abstrakcyjne puzzle rozumowania, zweryfikowane przez ARC Prize.
GPQA Diamond
accuracy · Bez narzędzi, Gemini 3.1 Pro Thinking (High)
94.3%%
📄 https://deepmind.google/models/gemini/pro/
Wiedza naukowa, bez narzędzi.
Terminal-Bench 2.0
accuracy · Terminus-2 harness, Gemini 3.1 Pro Thinking (High)
68.5%%
📄 https://deepmind.google/models/gemini/pro/
Agentyczne kodowanie terminalowe.
SWE-Bench Verified
accuracy · Jedna próba, Gemini 3.1 Pro Thinking (High)
80.6%%
📄 https://deepmind.google/models/gemini/pro/
Agentyczne kodowanie, jedna próba.
SWE-Bench Pro (Public)
accuracy · Jedna próba, Gemini 3.1 Pro Thinking (High)
54.2%%
📄 https://deepmind.google/models/gemini/pro/
Zróżnicowane agentyczne zadania kodowania.
LiveCodeBench Pro
elo · Gemini 3.1 Pro Thinking (High)
2887 EloElo
📄 https://deepmind.google/models/gemini/pro/
Problemy programowania konkurencyjnego (Codeforces, ICPC, IOI).
SciCode
accuracy · Gemini 3.1 Pro Thinking (High)
59%%
📄 https://deepmind.google/models/gemini/pro/
Kodowanie badań naukowych.
APEX-Agents
accuracy · Gemini 3.1 Pro Thinking (High)
33.5%%
📄 https://deepmind.google/models/gemini/pro/
Długoterminowe profesjonalne zadania.
τ2-bench (Retail)
accuracy · Retail, Gemini 3.1 Pro Thinking (High)
90.8%%
📄 https://deepmind.google/models/gemini/pro/
Agentyczne użycie narzędzi – detal.
τ2-bench (Telecom)
accuracy · Telecom, Gemini 3.1 Pro Thinking (High)
99.3%%
📄 https://deepmind.google/models/gemini/pro/
Agentyczne użycie narzędzi – telekomunikacja.
MCP Atlas
accuracy · Gemini 3.1 Pro Thinking (High)
69.2%%
📄 https://deepmind.google/models/gemini/pro/
Wieloetapowe przepływy pracy z użyciem MCP.
BrowseComp
accuracy · Search + Python + Browse, Gemini 3.1 Pro Thinking (High)
85.9%%
📄 https://deepmind.google/models/gemini/pro/
Agentyczne wyszukiwanie.
MMMU-Pro
accuracy · Bez narzędzi, Gemini 3.1 Pro Thinking (High)
80.5%%
📄 https://deepmind.google/models/gemini/pro/
Multimodalne rozumienie i wnioskowanie.
MMMLU
accuracy · Gemini 3.1 Pro Thinking (High)
92.6%%
📄 https://deepmind.google/models/gemini/pro/
Wielojęzyczne pytania i odpowiedzi.
MRCR v2 (8-needle, 128k)
accuracy · 128k average, Gemini 3.1 Pro Thinking (High)
84.9%%
📄 https://deepmind.google/models/gemini/pro/
Wydajność długiego kontekstu.
MRCR v2 (8-needle, 1M)
accuracy · 1M pointwise, Gemini 3.1 Pro Thinking (High)
26.3%%
📄 https://deepmind.google/models/gemini/pro/
Wydajność bardzo długiego kontekstu (1M tokenów).

Cennik

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Gemini 3.1 Pro dostępny w Vertex AI i Gemini Enterprise. Model card dostępny publicznie pod adresem deepmind.google/models/model-cards/gemini-3-1-pro.

Aktualizacja: 1 maj 2026↗ Dokumentacja security