Gemini 3

3 · Rodzina: Gemini

Gemini 3 to trzecia generacja modeli Gemini od Google DeepMind, multimodalna rodzina modeli o zaawansowanych możliwościach rozumowania, kodowania i planowania.

⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini

Okno kontekstowe

1M tokenów

tokenów

Parametry

nieujawnione

parametrów

Max output

65 536

tokenów

Data premiery

18 listopada 2025

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3 to trzecia generacja modeli Gemini opracowanych przez Google DeepMind. Ogłoszona 18 listopada 2025 roku, rodzina ta została zaprojektowana z myślą o zaawansowanym rozumowaniu multimodalnym, kodowaniu agentycznym i długoterminowym planowaniu. Pierwszym modelem wydanym w ramach tej generacji był Gemini 3 Pro w trybie preview.

Model obsługuje natywnie wiele modalności na wejściu (tekst, obraz, audio, wideo, dokumenty PDF) z oknem kontekstowym do 1 miliona tokenów. Wspiera narzędzia takie jak wywoływanie funkcji, wykonywanie kodu oraz wyszukiwanie jako narzędzie. Dostęp do modeli z rodziny Gemini 3 jest możliwy przez Gemini API, Google AI Studio, Vertex AI oraz aplikację Gemini.

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Gemini

Zastosowania

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M tokenów

🧩 Parametry: nieujawnione

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo…

Platformy

Vertex AI

Specyfikacja techniczna

Okno kontekstowe

1M tokenów

tokenów

Parametry

nieujawnione

parametrów

Max output tokens

65 536

tokenów na odpowiedź

Knowledge cutoff

1 sty 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostęp przez infrastrukturę Google Cloud (Vertex AI / Gemini API) lub aplikację Gemini.

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideodocuments

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Dziedziny zastosowań

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych Asystent wyszukiwania Tłumaczenie Korepetycje i edukacja

Wyniki benchmarków

14 benchmarków

Humanity's Last Exam

accuracy · Bez narzędzi, Gemini 3 Pro Thinking (High)

37.5%%