Gemini Robotics-ER 1.6
MultimodalMultimodalrobotics_foundationrobotics_foundation
Model Vision-Language (VLM) od Google DeepMind z zaawansowanym rozumowaniem przestrzennym i ucieleśnionym, przeznaczony do zastosowań robotycznych.
Specyfikacja techniczna
Okno kontekstowe
Max output
Narzędzia
Fine-tuning
Dostęp do wag
Ostatnia aktualizacja: 2 maj 2026
Modalności
Wejście
Text
Image
Audio
Video
Wyjście
Text
Możliwości
9Reasoning★
Rozumowanie
Multi-step reasoning★
Rozumowanie
Planning★
Planowanie
Image understanding★
Wizja
Multimodal understanding★
Multimodalność
Function Calling
Planowanie
Structured output★
Strukt. generacja
Video Understanding
Inne
Audio understanding
Audio
Architektura i technologie
Architektura Core
1Forma / Rodzina
2Techniki Treningu
1Zastosowania
Źródła
Strona1Blog1Raport techniczny1Artykuł naukowy1