Gemini 3 Flash

3 Flash · Rodzina: Gemini

Multimodalny model językowy Google DeepMind z rodziny Gemini 3, zaprojektowany pod kątem szybkości wnioskowania i niskich kosztów przy zachowaniu możliwości na poziomie zbliżonym do Gemini 3 Pro.

⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini

Okno kontekstowe

tokenów

Max output

65 536

tokenów

Data premiery

17 grudnia 2025

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3 Flash to model AI opracowany przez Google DeepMind, ogłoszony 17 grudnia 2025 roku jako rozszerzenie rodziny Gemini 3. Jest to model multimodalny obsługujący wejście tekstowe, obrazy, wideo, audio oraz dokumenty PDF, a na wyjściu generujący tekst i kod.

Model dysponuje oknem kontekstowym do 1 miliona tokenów i maksymalnym wyjściem 64 000 tokenów. Obsługuje narzędzia takie jak wywoływanie funkcji, strukturyzowane wyjście, wyszukiwanie jako narzędzie oraz wykonywanie kodu. Dostępny jest przez Gemini API, Google AI Studio, Vertex AI, Gemini CLI, Android Studio, Google Antigravity oraz aplikację Gemini.

Granica wiedzy modelu (knowledge cutoff) to styczeń 2025. Model udostępniony jest w fazie preview. Parametry modelu nie zostały publicznie ujawnione przez producenta.

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Gemini

Zastosowania

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo…

Platformy

Vertex AI

Specyfikacja techniczna

Okno kontekstowe

tokenów

Max output tokens

65 536

tokenów na odpowiedź

Knowledge cutoff

1 sty 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio).

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideodocuments

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Dziedziny zastosowań

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Asystent badawczy Analiza danych Asystent wyszukiwania

Wyniki benchmarków

15 benchmarków

Humanity's Last Exam

accuracy · Bez narzędzi, Gemini 3 Flash Thinking

33.7%%