Thinking Machines: TML-Interaction-Small — model interakcyjny w czasie rzeczywistym

Thinking Machines Lab — startup założony przez byłą szefową OpenAI Mirę Murati i współzałożycielkę Lilian Weng — opublikował 11 maja 2026 roku swój pierwszy model bazowy: TML-Interaction-Small. To 276-miliardowy model MoE z 12 miliardami aktywnych parametrów, zaprojektowany tak, by interaktywność w czasie rzeczywistym była wbudowana w architekturę, a nie doklejona jako zewnętrzna warstwa. Firma klasyfikuje go jako research preview nowej klasy modeli, które mają wypełnić lukę między autonomicznymi agentami a naturalną współpracą człowieka z AI.

Najważniejsze w skrócie

TML-Interaction-Small: 276B MoE z 12B aktywnymi parametrami, trenowany od zera
FD-bench v1.5: 77,8 punktów wobec 54,3 (Gemini-3.1-flash-live) i 46,8 (GPT-Realtime-2.0)
Latencja odpowiedzi: 0,40 s wobec 1,18 s (GPT-Realtime-2.0) i 0,57 s (Gemini)
Micro-turn co 200 ms: model przetwarza audio, wideo i tekst jednocześnie bez VAD
Seed round wyceniony na 120 mln USD (ok. 480 mln zł), udziałowcy m.in. Accel, AMD, ServiceNow

Problem z modelem turn-based

Od czasów pierwszych asystentów głosowych standardem jest architektura naprzemiennej komunikacji: użytkownik mówi, model czeka — model odpowiada, użytkownik czeka. Większość komercyjnych systemów real-time nakłada na bazowy LLM zewnętrzną warstwę VAD (Voice Activity Detection), która wykrywa granice tur i symuluje interaktywność. OpenAI i inne wiodące firmy publikują modele real-time oparte na tym podejściu — Thinking Machines w swoim blogu technicznym stwierdza wprost, że taka harness-based architektura jest z zasady mniej inteligentna niż sam model, bo graniczne decyzje podejmuje komponent o znacznie niższych możliwościach.

Skutki są praktyczne: model nie może przerywać użytkownikowi "z inicjatywy wizualnej" (np. wykryć błędu w kodzie zanim użytkownik skończy zdanie), prowadzić tłumaczenia symultanicznego ani reagować na sygnały niewerbalnie. Jak ujmuje to firma: „Ludzie słuchają, mówią, obserwują i myślą jednocześnie. W czasie rzeczywistym. Zaprojektowaliśmy AI, która współpracuje z ludźmi w ten sam sposób."

Architektura: trzy filary projektu

Micro-turny co 200 ms

Zamiast płaskiej sekwencji tokenów, model pracuje na ciągłym strumieniu mikro-tur. Każde 200 ms to osobna jednostka: model odbiera wejście (audio, wideo, tekst) i jednocześnie generuje wyjście. Granicy tury nie wyznacza zewnętrzny komponent, lecz sam model decyduje, czy wypowiedzieć token mowy, token ciszy (backchanneling), czy wstawić mruknięcie potwierdzenia. Jak opisują autorzy: model widzi "czas i nakładające się wypowiedzi jako część naturalnego kontekstu", a nie jako wyjątek wymagający obsługi.

Encoder-free early fusion

Dominujące podejście w modelach omni polega na osobnym pre-trenowaniu enkoderów audio (np. Whisper) i obrazu, a następnie ich połączeniu z LLM. Thinking Machines odrzuciło tę ścieżkę. Audio trafia do modelu jako reprezentacja dMel przez lekką warstwę embeddingową, a klatki wideo są cięte na patche 40×40 i kodowane przez minimalny MLP (hMLP). Architektura oparta na zasadzie Mixture of Experts — wszystkie komponenty, łącznie z głównym transformerem, są trenowane od zera wspólnie (co-trained from scratch). Oznacza to, że model od pierwszego kroku treningu uczy się koordynować trzy modalności, bez interfejsów między wcześniej oddzielnie zoptymalizowanymi modułami.

Podwójna architektura: front + background

Model interakcyjny obsługuje bieżącą rozmowę w czasie rzeczywistym. Gdy zadanie wymaga głębszego rozumowania, deleguje je do asynchronicznego modelu tła (background model), który uruchamia wyszukiwanie, przeglądanie sieci lub wywołania narzędzi. Wyniki wracają strumieniowo, a model interakcyjny wplata je w rozmowę w naturalnym momencie — bez nagłego przełączenia kontekstu. Twórcy opisują to jako "latencję odpowiedzi modelu nie-myślącego z inteligencją modelu myślącego".

Benchmarki: przewaga na interaktywności, nie tylko inteligencji

Na FD-bench v1.5 (benchmark mierzący jakość interakcji: przerywanie, backchannel, mowa w tle) TML-Interaction-Small uzyskał 77,8 punktów. Dla porównania: Gemini-3.1-flash-live (minimal) osiągnął 54,3, a GPT-Realtime-2.0 (minimal) — 46,8. Latencja tur (FD-bench v1) wyniosła 0,40 s wobec 1,18 s dla GPT-Realtime-2.0. Na benchmarku inteligencji Audio MultiChallenge TML-Interaction-Small uzyskał 43,4% — wynik wyższy niż wszystkie modele instant (bez trybu thinking). Po włączeniu background agenta (FD-bench v3, narzędzia): 68,0% Pass@1 wobec 52,0% dla GPT-Realtime-2.0 (minimal).

Thinking Machines zaprezentowało też własne, wewnętrzne benchmarki mierzące świadomość czasu i proaktywność wizualną. TimeSpeak (model inicjuje mowę we wskazanym czasie): 64,7 wobec 4,3 dla GPT. CueSpeak (odpowiedź na sygnały werbalne): 81,7 wobec 2,9. RepCount-A (zliczanie powtórzeń w wideo): 35,4 wobec 1,3. Wyniki bazowe dla modeli referencyjnych podaje Scale AI w ramach Audio MultiChallenge. Firma zaznacza, że żaden z testowanych modeli — łącznie z modelami high reasoning — nie jest w stanie znacząco wykonać tych zadań.

Inżynieria latencji i trainer-sampler alignment

Osiągnięcie latencji 200 ms wymagało kilku nietrywialnych decyzji inżynieryjnych. Firma zaimplementowała mechanizm streaming sessions, w którym klient wysyła każdy 200-ms chunk jako osobne żądanie, a serwer wnioskowania dołącza je do trwałej sekwencji w pamięci GPU — eliminując kosztowne realokacje. Wersję open-source tej funkcji Thinking Machines upstreamed do projektu SGLang. Dla kerneli MoE zastosowano strategię gather+gemv zamiast standardowego grouped gemm, co lepiej odpowiada charakterystyce bidirectional serving.

Osobnym wyzwaniem okazało się bitwise wyrównanie trenera i samplera. Niespójność tych komponentów prowadzi do "dryfowania" przy długoterminowym treningu RL. Firma przepisała kluczowe kernele (m.in. Attention Split-KV, all-reduce i reduce-scatter z NVLS), osiągając overhead poniżej 5% e2e. Przy okazji odkryto, że batch-invariant kernele przez pewien czas były szybsze niż standardowe, ze względu na niższe opóźnienia komunikacji.

Dlaczego to ważne?

TML-Interaction-Small to pierwsza publiczna demonstracja tezy, że interaktywność powinna skalować się razem z inteligencją — nie być przyklejoną warstwą. Dotychczasowe systemy real-time (GPT-Realtime, Gemini Live) osiągały płynność kosztem harness-based kompromisów: VAD podejmował decyzje, na które model nie miał wpływu. Thinking Machines udowadnia, że trening od zera na micro-turnach daje jakościowo inne możliwości: proaktywne przerywanie na sygnały wizualne, symultaniczne tłumaczenie, reagowanie na niedomówienia. Z rynkowego punktu widzenia firma wchodzi w przestrzeń zajmowaną przez OpenAI Realtime API i Google Gemini Live ze swoim własnym podejściem architektonicznym — zamiast adaptować istniejące LLM. To istotna zmiana: jeśli teza o skalowaniu interaktywności razem z inteligencją okaże się słuszna, to obecne systemy harness-based będą tracić przewagę z każdą generacją modeli. TML-Interaction-Small to jednak wciąż research preview z ograniczeniami — szczególnie w zakresie długich sesji i wymagań obliczeniowych przy streamingu audio-wideo.

Co dalej?

Większy model (ponad 276B parametrów) zapowiedziany na 2026 rok — obecny TML-Interaction-Small jest zbyt wolny przy większej skali
Ograniczony research preview dla zewnętrznych użytkowników zapowiedziany w "najbliższych miesiącach" wg wpisu na blogu z 11 maja 2026
Grant badawczy dla społeczności na nowe benchmarki interaktywności — szczegóły zapowiedziano wkrótce