Głosowy model OpenAI z rozumowaniem klasy GPT-5, równoległymi wywołaniami narzędzi i oknem kontekstu 128K tokenów, dostępny w Realtime API.
Okno kontekstowe
128K
tokenów
Data premiery
7 maja 2026
Dostęp:APIWdrożenie:☁ Cloud
Przegląd
Dostęp i wdrożenie
API
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 128K
✓ Narzędzia
📥 Wejście: audio, tekst
Specyfikacja techniczna
Okno kontekstowe
128K
tokenów
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
audiotext
⬆ Wyjście (Output)
audiotext
Możliwości i zastosowania
Natywne możliwości modelu
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Konwersacja głosowa
Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.
Kategoria: speech
Tłumaczenie na żywo
Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.
Kategoria: speech
Transkrypcja strumieniowa
Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.
Kategoria: speech
Równoległe wywołania narzędzi
Zdolność do jednoczesnego wywoływania wielu narzędzi zewnętrznych w trakcie generowania odpowiedzi.
Kategoria: reasoning
Wyniki benchmarków
2 benchmarki
Big Bench Audio
relative improvement · GPT-Realtime-2 (high)
+15.2% vs GPT-Realtime-1.5%
📄 OpenAI
Audio MultiChallenge
relative improvement · GPT-Realtime-2 (xhigh)
+13.8% vs GPT-Realtime-1.5%
📄 OpenAI
Architektura techniczna
Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)
