Gemini 2.5 Pro

gemini-2.5-pro · Rodzina: Gemini

Zaawansowany multimodalny model AI Google DeepMind zaprojektowany do zadań wymagających głębokiego rozumowania, analizy danych i pracy z bardzo długim kontekstem.

✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini

Okno kontekstowe

do 1M tokenów

tokenów

Parametry

nieujawnione

parametrów

Max output

65 536

tokenów

Data premiery

25 marca 2025

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 2.5 Pro to flagowy model językowy Google DeepMind. Wydany w wersji preview 25 marca 2025 roku, ogólna dostępność (GA) nastąpiła 17 czerwca 2025. Identyfikator API: gemini-2.5-pro.

Architektura i możliwości

Model zbudowany na architekturze Sparse Mixture of Experts (MoE). Okno kontekstowe: 1 048 576 tokenów, maksymalna liczba tokenów wyjściowych: 65 536. Graniczna data wiedzy: styczeń 2025. Wspiera multimodalne wejście (tekst, obraz, audio, wideo, dokumenty), tool use oraz wbudowany tryb "thinking" (extended reasoning). Fine-tuning nie jest dostępny.

Wyniki benchmarków

SWE-bench Verified 63,8% (custom agent setup), GPQA Diamond 84,0% (pass@1), AIME 2025 86,7% (pass@1), AIME 2024 92,0%, Humanity’s Last Exam 18,8% bez narzędzi (najwyższy wynik przy premierze). Aider Polyglot 74,0%, MMMU 81,7%, Global MMLU Lite 89,8%. MRCR v1 91,5% przy 128K kontekstu i 83,1% przy pełnym 1M tokenów. W LMArena (Elo 1470) i WebDev Arena (Elo 1443) lider leaderboardów po czerwcowej aktualizacji preview.

Ceny i dostępność

Model zamknięty (closed weights), dostępny przez Gemini API (Google AI Studio) oraz Vertex AI. Dwupoziomowe ceny wg długości kontekstu: ≤200K tokenów — 1,25 USD/MTok input, 10,00 USD/MTok output; >200K tokenów — 2,50/15,00 USD/MTok. Thinking tokens rozliczane jako output. Batch API z ~50% rabatem. Darmowy tier dostępny w Google AI Studio.

Bezpieczeństwo

Model oceniony zgodnie z Responsible Scaling Policy Google DeepMind (cybersecurity, CBRN, ML R&D, deceptive alignment). Przy Google I/O 2025 opisany jako „most secure model family to date" — znaczące wzmocnienie ochrony przed indirect prompt injection. Tryb Deep Think poddany dodatkowym ocenom bezpieczeństwa przed szerokim udostępnieniem. Płatny tier API nie używa danych klientów do trenowania modeli.

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Gemini

Zastosowania

Chatboty Analiza dokumentów Analiza danych

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: do 1M tokenów

🧩 Parametry: nieujawnione

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo…

Specyfikacja techniczna

Okno kontekstowe

do 1M tokenów

tokenów

Parametry

nieujawnione

parametrów

Max output tokens

65 536

tokenów na odpowiedź

Knowledge cutoff

1 sty 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostęp poprzez infrastrukturę Google Cloud (Vertex AI / Gemini API)

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideodocumentsstructured_dataurls

⬆ Wyjście (Output)

textcodestructured_datasummariesanalytical_reportsimage

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Rozumowanie po diagramach

Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.

Kategoria: reasoning

OCR

Rozpoznawanie tekstu na obrazach i w dokumentach.

Kategoria: vision

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Planowanie

Tworzenie i realizacja planów działania dla złożonych zadań.

Kategoria: planning

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Dziedziny zastosowań

Chatboty Analiza dokumentów Analiza danych

Wyniki benchmarków

15 benchmarków

MMLU

accuracy · general knowledge benchmark

90%+%

📅 25 mar 2025📄 Google DeepMind

Wynik przybliżony na podstawie materiałów Google

SWE-bench Verified

accuracy · Custom agent setup z wieloma trajektoriami i re-scoringiem przez model. Model-id: gemini-2.5-pro-exp-03-25.

63.8%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)

Wynik z custom agent setup Google. Lepszy od OpenAI o3-mini (61,0%), gorszy od Claude 3.7 Sonnet (70,3%) w momencie premiery. W technical report (06-05 snapshot) wynik 67,2%.

GPQA Diamond

pass@1 · Pojedyncza próba (pass@1), bez majority voting. Graduate-level STEM questions.

84.0%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report gemini_v2_5_report.pdf

Najwyższy wynik wśród porównywanych modeli przy premierze. Grok 3 Beta: 80,2%, o3-mini: niższy.

AIME 2025

pass@1 · Jednotynkowa próba (pass@1), bez majority voting. American Invitational Mathematics Examination 2025.

86.7%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report

Wynik leaderowy przy premierze. o3-mini: 86,5% (nieznacznie niższy). Wyniki z matharena.ai.

AIME 2024

pass@1 · Jednotynkowa próba (pass@1), bez majority voting.

92.0%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report

Najwyższy wynik wśród porównywanych modeli przy premierze.

Humanity's Last Exam (bez narzędzi)

accuracy · Bez tool use. Benchmark wielodyscyplinarny stworzony przez ekspertów domenowych.

18.8%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)

Najwyższy wynik przy premierze bez narzędzi. o3-mini: 14,0%, Claude 3.7 Sonnet: 8,9%, DeepSeek R1: 8,6%.

LiveCodeBench v5

pass@1 · Wyniki z livecodebench.github.io (10/1/2024–2/1/2025 w UI).

70.4%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / DataCamp

Nieznacznie gorszy od o3-mini (74,1%) i Grok 3 Beta (70,6%). Poprawa z 30,5% (Gemini 1.5 Pro) do 74,2% wg technical report.

Aider Polyglot (Whole File Editing)

pass_rate · Średnia z 3 prób. Wielojęzyczna edycja kodu. Wyniki z aider.chat/docs/leaderboards/.

74.0%

📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 / technical report

W technical report (nowszy snapshot 06-05) wynik 82,2%. Wynik 74,0% z premiery (03-25).

MMMU

pass@1 · Multimodal rozumowanie akademickie (teksty, obrazy, diagramy, mapy).

81.7%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / Medium (Mehul Gupta)

Najwyższy pass@1 wśród porównywanych modeli przy premierze.

MRCR v1 (128K context)

accuracy · Multi-Round Coreference Resolution – odszukiwanie wielu igieł w 128K kontekście.

91.5%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf

Wyniki dodane 26 marca 2025 jako aktualizacja bloga. W wersji 1M tokenów: 83,1%.

MRCR v1 (1M context)

accuracy · Multi-Round Coreference Resolution przy pełnym oknie kontekstowym 1M tokenów.

83.1%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf

Jedyny model w benchmarku wspierający pełne 1M tokenów przy premierze.

Global MMLU Lite (multilingual)

accuracy · Wielojęzyczne i multidyscyplinarne rozumienie tekstu.

89.8%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf

Najwyższy wynik wśród porównywanych modeli przy premierze.

SimpleQA

accuracy · Faktograficzne pytania krótkoformowe.

52.9%

📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf

GPT-4.5 osiągał 62,5% na tym benchmarku.

LMArena (Chatbot Arena)

Elo · Ranking ludzkich preferencji odpowiedzi AI. Wynik z aktualizacji preview (czerwiec 2025) przed GA.

1470points

📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)

Lider leaderboardu po aktualizacji preview. Wzrost o 24 punkty Elo względem wersji majowej.

WebDev Arena

Elo · Ranking web development. Wzrost o 35 punktów Elo.

1443points

📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)

Lider leaderboardu WebDev Arena po aktualizacji preview (czerwiec 2025).

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise

✓ Zweryfikowane informacje enterprise

Model oceniony pod kątem cyberbezpieczeństwa, CBRN, autonomii i innych ryzyk zgodnie z Responsible Scaling Policy Google DeepMind. Zawiera szczegółowe oceny bezpieczeństwa w technical report i model card. Wdrożono zaawansowane zabezpieczenia przed indirect prompt injection.

1) Technical report zawiera pełne oceny bezpieczeństwa: cybersecurity, CBRN, Machine Learning R&D, Deceptive Alignment. 2) Model card dostępna na modelcards.withgoogle.com. 3) Przy Google I/O 2025 ogłoszono znaczące wzmocnienie ochrony przed indirect prompt injection attacks — Gemini 2.5 opisany jako "most secure model family to date". 4) Tryb Deep Think poddany dodatkowym ocenom bezpieczeństwa przed szerokim udostępnieniem. 5) Dane treningowe poddane filtracji bezpieczeństwa. 6) Płatny tier API nie używa danych do trenowania modeli (w odróżnieniu od free tier).

Aktualizacja: 17 cze 2025↗ Dokumentacja security

Źródła i powiązane strony

14 źródeł

Webhttps://ai.google.dev/ai.google.dev Webhttps://deepmind.google/technologies/gemini/deepmind.google Webhttps://deepmind.google/technologies/gemini/deepmind.google BlogGemini 2.5: Our newest Gemini model with thinking – Google DeepMind Blogblog.google DocsGemini 2.5 Pro – Gemini API | Google AI for Developersai.google.dev DocsGemini 2.5 Pro – Vertex AI | Google Cloud Documentationdocs.cloud.google.com DocsGemini Developer API Pricing – Google AI for Developersai.google.dev DocsGemini API Release Notes – Google AI for Developersai.google.dev RaportGemini 2.5 Technical Report (PDF) – Google DeepMindstorage.googleapis.com WebGemini 2.5 Pro – Google DeepMind Models Pagedeepmind.google BlogGemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI – Google Cloud Blogcloud.google.com BlogGoogle I/O 2025: Updates to Gemini 2.5 – Google DeepMind Blogblog.google BlogGemini 2.5 Pro Latest Preview – Google Blog (czerwiec 2025)blog.google WebGemini 2.5 Pro Model Card – Google Model Cardsmodelcards.withgoogle.com

Przeglądaj powiązane tematy

📁 Gemini 🌐 Chatboty 🌐 Analiza dokumentów 🌐 Analiza danych Wszystkie modele llm Wszystkie modele multimodal model