Otwarta (Apache 2.0) rodzina multimodalnych modeli AI od Google DeepMind (E2B/E4B/26B A4B/31B). Obsługuje tekst, obraz, audio i wideo. Natywny function calling.
✓ Aktywny✓ Publiczny dostęp⚖ Open source★ WyróżnionyLLMModel multimodalnyModel używający narzędzi📁 Gemma
Okno kontekstowe
256K
tokenów
Parametry
25.2B
parametrów
Dostęp:APIDownloadHostedWdrożenie:💻 Lokalnie☁ Cloud📱 Na urządzeniu
Przegląd
Dostęp i wdrożenie
APIPobieranieHostowane
LokalnieChmuraNa urządzeniu
Wagi: Open source
Kluczowe parametry
📏 Kontekst: 256K
🧩 Parametry: 25.2B
✓ Narzędzia · ✓ Fine-tuning
📥 Wejście: tekst, obraz, audio, wideo
Platformy
Specyfikacja techniczna
Okno kontekstowe
256K
tokenów
Parametry
25.2B
parametrów
Licencja
Apache 2.0
Wymagania sprzętowe
E2B/E4B: urządzenia mobilne i edge (telefony, tablety, IoT); 26B A4B (MoE): consumer GPU lub workstation; 31B: GPU klasy workstation. Warianty E2B/E4B zaprojektowane do pracy na urządzeniach bez chmury.
Funkcje:✓ Używanie narzędzi✓ Fine-tuning
Modalności
⬇ Wejście (Input)
textimageaudiovideo
⬆ Wyjście (Output)
textcodestructured_data
Możliwości i zastosowania
Natywne możliwości modelu
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning
Wyniki benchmarków
5 benchmarków
MMLU Pro
accuracy · instruction-tuned (Gemma 4 31B IT)
85.2%
📅 31 mar 2026📄 Gemma 4 model card | Google AI for Developers
Źródło: ai.google.dev/gemma/docs/core/model_card_4. Wynik dla Gemma 4 31B (IT). MMLU Pro jest trudniejszy niż standard MMLU.
GPQA
accuracy · instruction-tuned (Gemma 4 31B IT)
84.3%
📅 31 mar 2026📄 Gemma 4 model card | Google AI for Developers
Źródło: ai.google.dev/gemma/docs/core/model_card_4. Wynik dla Gemma 4 31B (IT). Diamond subset of GPQA.
LiveCodeBench v6
accuracy · instruction-tuned (Gemma 4 31B IT)
80.0%
📅 31 mar 2026📄 Gemma 4 model card | Google AI for Developers
Źródło: ai.google.dev/gemma/docs/core/model_card_4. Wynik dla Gemma 4 31B (IT). Benchmark kodowania LiveCodeBench v6.
AIME 2026 (no tools)
accuracy · instruction-tuned (Gemma 4 31B IT), no tools
89.2%
📅 31 mar 2026📄 Gemma 4 model card | Google AI for Developers
Źródło: ai.google.dev/gemma/docs/core/model_card_4. Wynik dla Gemma 4 31B (IT). American Invitational Mathematics Examination 2026.
MMMU Pro (Vision)
accuracy · instruction-tuned (Gemma 4 31B IT), vision
76.9%
📅 31 mar 2026📄 Gemma 4 model card | Google AI for Developers
Źródło: ai.google.dev/gemma/docs/core/model_card_4. Wynik dla Gemma 4 31B (IT). MMMU Pro to rozszerzona wersja MMMU o wyższym stopniu trudności.
Cennik
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
Techniki trenowania (Training Techniques)
Wdrożenie i bezpieczeństwo
☁ Dostępny na platformach
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
Model card Gemma 4 zawiera wyniki safety evaluation. Model open-source – odpowiedzialność za wdrożenie spoczywa na użytkowniku. Dostępna dokumentacja dotycząca odpowiedzialnego korzystania z AI.
Gemma 4 jest modelem open-source (Apache 2.0). Wdrożenia produkcyjne wymagają własnej oceny ryzyka. Google publikuje model card z wynikami safety evaluation.
Aktualizacja: 5 kwi 2026↗ Dokumentacja security
Źródła i powiązane strony
8 źródeł
DocsGemma 4 – przegląd modelu | Google AI for DevelopersPaperGemma 4 model card | Google AI for DevelopersBlogGemma 4: Byte for byte, the most capable open models | Google BlogDocsApache License 2.0 | GemmaRepogoogle/gemma-4-31B-it | Hugging FaceRepogoogle/gemma-4-26B-A4B-it | Hugging FaceWebGemma | Google DeepMindDocsGemma releases | Google AI for Developers
