GPT Realtime 2

2 · Rodzina: GPT

Głosowy model OpenAI z rozumowaniem klasy GPT-5, równoległymi wywołaniami narzędzi i oknem kontekstu 128K tokenów, dostępny w Realtime API.

✓ Aktywny✓ Publiczny dostępModel audioModel audioModel multimodalnyModel rozumowania📁 GPT

Okno kontekstowe

128K

tokenów

Data premiery

7 maja 2026

🏢OpenAIProducent

Dostęp:APIWdrożenie:☁ Cloud

Przegląd

GPT-Realtime-2 to model audio nowej generacji wydany przez OpenAI 7 maja 2026 roku w ramach Realtime API. Łączy rozumowanie klasy GPT-5, równoległe wywołania narzędzi i okno kontekstu rozszerzone do 128K tokenów (z 32K w poprzedniej wersji). Model wprowadza funkcję „preamble”, dzięki której potrafi wypowiadać krótkie frazy potwierdzające (np. „już sprawdzam”, „chwilkę”) zanim wygeneruje pełną odpowiedź, oraz audio-anonsy wykonywanych wywołań narzędzi.

W benchmarkach OpenAI GPT-Realtime-2 (high) osiąga wynik o 15,2% wyższy od poprzednika GPT-Realtime-1.5 w teście Big Bench Audio (rozumowanie audio) oraz o 13,8% wyższy w Audio MultiChallenge (wielowątkowa konwersacja). Wczesny tester Zillow zgłosił wzrost wskaźnika sukcesu połączeń o 26 punktów (z 69% do 95%) po optymalizacji promptów. Model jest dostępny przez WebRTC, WebSocket i SIP, z pełnym wsparciem EU Data Residency.

Klasyfikacja

Model audioModel audioModel multimodalnyModel rozumowania

Rodzina: GPT

Dostęp i wdrożenie

API

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 128K

✓ Narzędzia

📥 Wejście: audio, tekst

Specyfikacja techniczna

Okno kontekstowe

128K

tokenów

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

audiotext

⬆ Wyjście (Output)

audiotext

Możliwości i zastosowania

Natywne możliwości modelu

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Konwersacja głosowa

Zdolność prowadzenia wieloturowych rozmów głosowych w czasie rzeczywistym z zachowaniem kontekstu i naturalnym tempem wypowiedzi.

Kategoria: speech

Tłumaczenie na żywo

Tłumaczenie mowy w czasie rzeczywistym między wieloma językami bez przerywania strumienia audio.

Kategoria: speech

Transkrypcja strumieniowa

Konwersja mowy na tekst w czasie rzeczywistym z natychmiastowym wyprowadzaniem wyników w trakcie trwania wypowiedzi.

Kategoria: speech

Równoległe wywołania narzędzi

Zdolność do jednoczesnego wywoływania wielu narzędzi zewnętrznych w trakcie generowania odpowiedzi.

Kategoria: reasoning

Wyniki benchmarków

2 benchmarki

Big Bench Audio

relative improvement · GPT-Realtime-2 (high)

+15.2% vs GPT-Realtime-1.5%

📄 OpenAI

Audio MultiChallenge

relative improvement · GPT-Realtime-2 (xhigh)

+13.8% vs GPT-Realtime-1.5%

📄 OpenAI

Architektura techniczna

Rdzeń architektury (Core Architecture)

TRTransformer NMNative Multimodal

Forma modelu (Model Form)

MLMultimodal LLM RMReasoning model TLTool-augmented LLM

Artykuły

1 artykuł

OpenAI wprowadza GPT-Realtime-2: głos z rozumowaniem GPT-5

9 maj 2026

›

Źródła i powiązane strony

3 źródła

BlogOpenAI — Advancing voice intelligence with new models in the APIopenai.com BlogTechCrunch — OpenAI launches new voice intelligence features in its APItechcrunch.com DocsOpenAI Developers — Realtime and audio guideplatform.openai.com

Przeglądaj powiązane tematy

📁 GPT 🧠 Transformer 🧠 Native Multimodal 🧠 Multimodal LLM Wszystkie modele audio model Wszystkie modele speech model