Robocikowo>ROBOCIKOWO
GPT Realtime 2

GPT Realtime 2

2 · Rodzina: GPT
Głosowy model OpenAI z rozumowaniem klasy GPT-5, równoległymi wywołaniami narzędzi i oknem kontekstu 128K tokenów, dostępny w Realtime API.
✓ Aktywny✓ Publiczny dostępModel audioModel audioModel multimodalnyModel rozumowania📁 GPT
Okno kontekstowe
128K
tokenów
Data premiery
7 maja 2026
Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-2 to model audio nowej generacji wydany przez OpenAI 7 maja 2026 roku w ramach Realtime API. Łączy rozumowanie klasy GPT-5, równoległe wywołania narzędzi i okno kontekstu rozszerzone do 128K tokenów (z 32K w poprzedniej wersji). Model wprowadza funkcję „preamble”, dzięki której potrafi wypowiadać krótkie frazy potwierdzające (np. „już sprawdzam”, „chwilkę”) zanim wygeneruje pełną odpowiedź, oraz audio-anonsy wykonywanych wywołań narzędzi.

W benchmarkach OpenAI GPT-Realtime-2 (high) osiąga wynik o 15,2% wyższy od poprzednika GPT-Realtime-1.5 w teście Big Bench Audio (rozumowanie audio) oraz o 13,8% wyższy w Audio MultiChallenge (wielowątkowa konwersacja). Wczesny tester Zillow zgłosił wzrost wskaźnika sukcesu połączeń o 26 punktów (z 69% do 95%) po optymalizacji promptów. Model jest dostępny przez WebRTC, WebSocket i SIP, z pełnym wsparciem EU Data Residency.

Klasyfikacja
Model audioModel audioModel multimodalnyModel rozumowania
Rodzina: GPT
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 128K
Narzędzia
📥 Wejście: audio, tekst

Specyfikacja techniczna

Okno kontekstowe
128K
tokenów
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
audiotext
⬆ Wyjście (Output)
audiotext

Możliwości i zastosowania

Natywne możliwości modelu
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Konwersacja głosowa
Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.
Kategoria: speech
Tłumaczenie na żywo
Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.
Kategoria: speech
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech
Równoległe wywołania narzędzi
Zdolność do jednoczesnego wywoływania wielu narzędzi zewnętrznych w trakcie generowania odpowiedzi.
Kategoria: reasoning

Wyniki benchmarków

2 benchmarki
Big Bench Audio
relative improvement · GPT-Realtime-2 (high)
+15.2% vs GPT-Realtime-1.5%
📄 OpenAI
Audio MultiChallenge
relative improvement · GPT-Realtime-2 (xhigh)
+13.8% vs GPT-Realtime-1.5%
📄 OpenAI

Architektura techniczna

Rdzeń architektury (Core Architecture)