Gemma 4

Rodzina: Gemma

Otwarta (Apache 2.0) rodzina multimodalnych modeli AI od Google DeepMind (E2B/E4B/26B A4B/31B). Obsługuje tekst, obraz, audio i wideo. Natywny function calling.

✓ Aktywny✓ Publiczny dostęp⚖ Open source★ WyróżnionyLLMModel multimodalnyModel używający narzędzi📁 Gemma

Okno kontekstowe

256K

tokenów

Parametry

25.2B

parametrów

🏢Google DeepMindProducent

Dostęp:APIDownloadHostedWdrożenie:💻 Lokalnie☁ Cloud📱 Na urządzeniu

Przegląd

Gemma 4 to rodzina otwartych wielomodalnych modeli AI od Google DeepMind, dostępna na licencji Apache 2.0. Modele obsługują wejście tekstowe, obrazowe, audio (E2B/E4B) i wideo, generując tekst, kod i dane strukturyzowane.

Warianty modelu

Gemma 4 dostępna jest w czterech rozmiarach: E2B i E4B (urządzenia mobilne i edge, okno kontekstowe 128K tokenów) oraz 26B A4B (Mixture of Experts, consumer GPU, okno 256K) i 31B (dense, GPU klasy workstation, okno 256K).

Kluczowe możliwości

Wbudowany tryb rozumowania (Thinking) – modele posiadają natywny chain-of-thought
Natywny function calling (native function-calling support)
Natywne wsparcie dla system prompt (native system role)
Hybrydowy mechanizm uwagi: lokalny sliding window + globalny attention (ostatnia warstwa zawsze globalna)
Modele 26B A4B i E4B działają zbliżoną prędkością do modeli 4B dzięki architekturze MoE

Klasyfikacja

LLMModel multimodalnyModel używający narzędzi

Rodzina: Gemma

Dostęp i wdrożenie

APIPobieranieHostowane

LokalnieChmuraNa urządzeniu

Wagi: Open source

Kluczowe parametry

📏 Kontekst: 256K

🧩 Parametry: 25.2B

✓ Narzędzia · ✓ Fine-tuning

📥 Wejście: tekst, obraz, audio, wideo

Platformy

Vertex AI Hugging Face Hub

Specyfikacja techniczna

Okno kontekstowe

256K

tokenów

Parametry

25.2B

parametrów

Licencja

Apache 2.0

Wymagania sprzętowe

E2B/E4B: urządzenia mobilne i edge (telefony, tablety, IoT); 26B A4B (MoE): consumer GPU lub workstation; 31B: GPU klasy workstation. Warianty E2B/E4B zaprojektowane do pracy na urządzeniach bez chmury.

Funkcje:✓ Używanie narzędzi✓ Fine-tuning

Modalności

⬇ Wejście (Input)

textimageaudiovideo

⬆ Wyjście (Output)

textcodestructured_data

Możliwości i zastosowania

Natywne możliwości modelu

Programowanie

Generowanie, analiza i modyfikacja kodu źródłowego.

Kategoria: coding

Wielojęzyczność

Rozumienie i generowanie tekstu w wielu językach.

Kategoria: language

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.

Kategoria: language

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Przeplatane wejście multimodalne

Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.

Kategoria: reasoning

Wyniki benchmarków

5 benchmarków

MMLU Pro

accuracy · instruction-tuned (Gemma 4 31B IT)

85.2%