Robocikowo>ROBOCIKOWO
Gemini 2.5 Pro

Gemini 2.5 Pro

gemini-2.5-pro · Rodzina: Gemini
Zaawansowany multimodalny model AI Google DeepMind zaprojektowany do zadań wymagających głębokiego rozumowania, analizy danych i pracy z bardzo długim kontekstem.
✓ Aktywny✓ Publiczny dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini
Okno kontekstowe
do 1M tokenów
tokenów
Parametry
nieujawnione
parametrów
Max output
65 536
tokenów
Data premiery
25 marca 2025
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 2.5 Pro to flagowy model językowy Google DeepMind. Wydany w wersji preview 25 marca 2025 roku, ogólna dostępność (GA) nastąpiła 17 czerwca 2025. Identyfikator API: gemini-2.5-pro.

Architektura i możliwości

Model zbudowany na architekturze Sparse Mixture of Experts (MoE). Okno kontekstowe: 1 048 576 tokenów, maksymalna liczba tokenów wyjściowych: 65 536. Graniczna data wiedzy: styczeń 2025. Wspiera multimodalne wejście (tekst, obraz, audio, wideo, dokumenty), tool use oraz wbudowany tryb "thinking" (extended reasoning). Fine-tuning nie jest dostępny.

Wyniki benchmarków

SWE-bench Verified 63,8% (custom agent setup), GPQA Diamond 84,0% (pass@1), AIME 2025 86,7% (pass@1), AIME 2024 92,0%, Humanity’s Last Exam 18,8% bez narzędzi (najwyższy wynik przy premierze). Aider Polyglot 74,0%, MMMU 81,7%, Global MMLU Lite 89,8%. MRCR v1 91,5% przy 128K kontekstu i 83,1% przy pełnym 1M tokenów. W LMArena (Elo 1470) i WebDev Arena (Elo 1443) lider leaderboardów po czerwcowej aktualizacji preview.

Ceny i dostępność

Model zamknięty (closed weights), dostępny przez Gemini API (Google AI Studio) oraz Vertex AI. Dwupoziomowe ceny wg długości kontekstu: ≤200K tokenów — 1,25 USD/MTok input, 10,00 USD/MTok output; >200K tokenów — 2,50/15,00 USD/MTok. Thinking tokens rozliczane jako output. Batch API z ~50% rabatem. Darmowy tier dostępny w Google AI Studio.

Bezpieczeństwo

Model oceniony zgodnie z Responsible Scaling Policy Google DeepMind (cybersecurity, CBRN, ML R&D, deceptive alignment). Przy Google I/O 2025 opisany jako „most secure model family to date" — znaczące wzmocnienie ochrony przed indirect prompt injection. Tryb Deep Think poddany dodatkowym ocenom bezpieczeństwa przed szerokim udostępnieniem. Płatny tier API nie używa danych klientów do trenowania modeli.

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: do 1M tokenów
🧩 Parametry: nieujawnione
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo

Specyfikacja techniczna

Okno kontekstowe
do 1M tokenów
tokenów
Parametry
nieujawnione
parametrów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostęp poprzez infrastrukturę Google Cloud (Vertex AI / Gemini API)
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocumentsstructured_dataurls
⬆ Wyjście (Output)
textcodestructured_datasummariesanalytical_reportsimage

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal

Wyniki benchmarków

15 benchmarków
MMLU
accuracy · general knowledge benchmark
90%+%
📅 25 mar 2025📄 Google DeepMind
Wynik przybliżony na podstawie materiałów Google
SWE-bench Verified
accuracy · Custom agent setup z wieloma trajektoriami i re-scoringiem przez model. Model-id: gemini-2.5-pro-exp-03-25.
63.8%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)
Wynik z custom agent setup Google. Lepszy od OpenAI o3-mini (61,0%), gorszy od Claude 3.7 Sonnet (70,3%) w momencie premiery. W technical report (06-05 snapshot) wynik 67,2%.
GPQA Diamond
pass@1 · Pojedyncza próba (pass@1), bez majority voting. Graduate-level STEM questions.
84.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report gemini_v2_5_report.pdf
Najwyższy wynik wśród porównywanych modeli przy premierze. Grok 3 Beta: 80,2%, o3-mini: niższy.
AIME 2025
pass@1 · Jednotynkowa próba (pass@1), bez majority voting. American Invitational Mathematics Examination 2025.
86.7%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report
Wynik leaderowy przy premierze. o3-mini: 86,5% (nieznacznie niższy). Wyniki z matharena.ai.
AIME 2024
pass@1 · Jednotynkowa próba (pass@1), bez majority voting.
92.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report
Najwyższy wynik wśród porównywanych modeli przy premierze.
Humanity's Last Exam (bez narzędzi)
accuracy · Bez tool use. Benchmark wielodyscyplinarny stworzony przez ekspertów domenowych.
18.8%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)
Najwyższy wynik przy premierze bez narzędzi. o3-mini: 14,0%, Claude 3.7 Sonnet: 8,9%, DeepSeek R1: 8,6%.
LiveCodeBench v5
pass@1 · Wyniki z livecodebench.github.io (10/1/2024–2/1/2025 w UI).
70.4%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / DataCamp
Nieznacznie gorszy od o3-mini (74,1%) i Grok 3 Beta (70,6%). Poprawa z 30,5% (Gemini 1.5 Pro) do 74,2% wg technical report.
Aider Polyglot (Whole File Editing)
pass_rate · Średnia z 3 prób. Wielojęzyczna edycja kodu. Wyniki z aider.chat/docs/leaderboards/.
74.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 / technical report
W technical report (nowszy snapshot 06-05) wynik 82,2%. Wynik 74,0% z premiery (03-25).
MMMU
pass@1 · Multimodal rozumowanie akademickie (teksty, obrazy, diagramy, mapy).
81.7%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / Medium (Mehul Gupta)
Najwyższy pass@1 wśród porównywanych modeli przy premierze.
MRCR v1 (128K context)
accuracy · Multi-Round Coreference Resolution – odszukiwanie wielu igieł w 128K kontekście.
91.5%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Wyniki dodane 26 marca 2025 jako aktualizacja bloga. W wersji 1M tokenów: 83,1%.
MRCR v1 (1M context)
accuracy · Multi-Round Coreference Resolution przy pełnym oknie kontekstowym 1M tokenów.
83.1%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Jedyny model w benchmarku wspierający pełne 1M tokenów przy premierze.
Global MMLU Lite (multilingual)
accuracy · Wielojęzyczne i multidyscyplinarne rozumienie tekstu.
89.8%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Najwyższy wynik wśród porównywanych modeli przy premierze.
SimpleQA
accuracy · Faktograficzne pytania krótkoformowe.
52.9%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
GPT-4.5 osiągał 62,5% na tym benchmarku.
LMArena (Chatbot Arena)
Elo · Ranking ludzkich preferencji odpowiedzi AI. Wynik z aktualizacji preview (czerwiec 2025) przed GA.
1470points
📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)
Lider leaderboardu po aktualizacji preview. Wzrost o 24 punkty Elo względem wersji majowej.
WebDev Arena
Elo · Ranking web development. Wzrost o 35 punktów Elo.
1443points
📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)
Lider leaderboardu WebDev Arena po aktualizacji preview (czerwiec 2025).

Cennik

Wdrożenie i bezpieczeństwo

🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise

Model oceniony pod kątem cyberbezpieczeństwa, CBRN, autonomii i innych ryzyk zgodnie z Responsible Scaling Policy Google DeepMind. Zawiera szczegółowe oceny bezpieczeństwa w technical report i model card. Wdrożono zaawansowane zabezpieczenia przed indirect prompt injection.

1) Technical report zawiera pełne oceny bezpieczeństwa: cybersecurity, CBRN, Machine Learning R&D, Deceptive Alignment. 2) Model card dostępna na modelcards.withgoogle.com. 3) Przy Google I/O 2025 ogłoszono znaczące wzmocnienie ochrony przed indirect prompt injection attacks — Gemini 2.5 opisany jako "most secure model family to date". 4) Tryb Deep Think poddany dodatkowym ocenom bezpieczeństwa przed szerokim udostępnieniem. 5) Dane treningowe poddane filtracji bezpieczeństwa. 6) Płatny tier API nie używa danych do trenowania modeli (w odróżnieniu od free tier).
Aktualizacja: 17 cze 2025↗ Dokumentacja security