Robocikowo>ROBOCIKOWO
Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

3.1 Flash-Lite · Rodzina: Gemini
Najbardziej efektywny kosztowo model myślący z serii Gemini 3 firmy Google DeepMind, zaprojektowany pod kątem wysokiej przepustowości i niskich opóźnień przy zachowaniu jakości wnioskowania.
⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini
Okno kontekstowe
1M
tokenów
Max output
65 536
tokenów
Data premiery
29 kwietnia 2026
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.1 Flash-Lite to model AI opracowany przez Google DeepMind, ogłoszony 29 kwietnia 2026 roku jako część rodziny Gemini 3.1. To skalowalny model myślący zaprojektowany dla zadań wymagających wysokiej przepustowości przy niskim koszcie i opóźnieniu.

Model obsługuje elastyczne poziomy rozumowania, co pozwala użytkownikom dobierać głębokość myślenia do zadania. Dysponuje oknem kontekstowym do 1 miliona tokenów i maksymalnym wyjściem 64 000 tokenów. Obsługuje narzędzia: wywoływanie funkcji, strukturyzowane wyjście, wyszukiwanie i wykonanie kodu.

Dostępny przez Google AI Studio, Gemini API i Vertex AI. Granica wiedzy: styczeń 2025. Prędkość wnioskowania: 363 tokeny/s. Najniższa cena w serii 3: input $0.25/1M, output $1.50/1M tokenów.

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo
Platformy

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio).
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocuments
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning

Wyniki benchmarków

11 benchmarków
Humanity's Last Exam
accuracy · Bez narzędzi, Gemini 3.1 Flash-Lite High
16.0%%
📄 https://deepmind.google/models/gemini/flash-lite/
Pełny zestaw (text + MM). Bez narzędzi.
GPQA Diamond
accuracy · Bez narzędzi, Gemini 3.1 Flash-Lite High
86.9%%
📄 https://deepmind.google/models/gemini/flash-lite/
Wiedza naukowa, bez narzędzi.
MMMU-Pro
accuracy · Bez narzędzi, Gemini 3.1 Flash-Lite High
76.8%%
📄 https://deepmind.google/models/gemini/flash-lite/
Multimodalne rozumienie i wnioskowanie.
CharXiv Reasoning
accuracy · Gemini 3.1 Flash-Lite High
73.2%%
📄 https://deepmind.google/models/gemini/flash-lite/
Synteza informacji z złożonych wykresów.
Video-MMMU
accuracy · Gemini 3.1 Flash-Lite High
84.8%%
📄 https://deepmind.google/models/gemini/flash-lite/
Zdobywanie wiedzy z filmów wideo.
SimpleQA Verified
accuracy · Gemini 3.1 Flash-Lite High
43.3%%
📄 https://deepmind.google/models/gemini/flash-lite/
Wiedza parametryczna.
FACTS Benchmark Suite
accuracy · Gemini 3.1 Flash-Lite High
40.6%%
📄 https://deepmind.google/models/gemini/flash-lite/
Faktyczność: grounding, wiedza parametryczna, wyszukiwanie i MM.
MMMLU
accuracy · Gemini 3.1 Flash-Lite High
88.9%%
📄 https://deepmind.google/models/gemini/flash-lite/
Wielojęzyczne pytania i odpowiedzi.
LiveCodeBench
accuracy · UI: 1/1/2025-5/1/2025, Gemini 3.1 Flash-Lite High
72.0%%
📄 https://deepmind.google/models/gemini/flash-lite/
Generowanie kodu.
MRCR v2 (8-needle, 128k)
accuracy · 128k average, Gemini 3.1 Flash-Lite High
60.1%%
📄 https://deepmind.google/models/gemini/flash-lite/
Wydajność długiego kontekstu.
MRCR v2 (8-needle, 1M)
accuracy · 1M pointwise, Gemini 3.1 Flash-Lite High
12.3%%
📄 https://deepmind.google/models/gemini/flash-lite/
Wydajność bardzo długiego kontekstu (1M tokenów).

Cennik

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)

Wdrożenie i bezpieczeństwo

☁ Dostępny na platformach
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Model card dostępny publicznie.

Aktualizacja: 1 maj 2026↗ Dokumentacja security