Model przetwarza wszystkie modalności (tekst, obraz, audio, wideo) jako ujednolicone tokeny od samego początku treningu. Brak oddzielnych enkoderów — jedna sieć uczy się reprezentacji cross-modalnych bezpośrednio z danych.
Wczesne modele multimodalne były złożeniami oddzielnych enkoderów (np. CLIP + LLM), co ograniczało integrację modalności. Natywna architektura multimodalna trenuje model od podstaw na wszystkich modalnościach jednocześnie.
Moduł odpowiedzialny za konwersję danych ze wszystkich modalności do wspólnej przestrzeni tokenów. Dla obrazów stosuje się zazwyczaj kwantyzację wektorową (VQ-VAE) generującą dyskretne tokeny wizualne; tekst tokenizowany jest standardowo; audio konwertowane jest do spektrogramów lub dyskretnych tokenów akustycznych.
Oficjalna
Pojedynczy stos warstw transformerowych przetwarzający interleaved sekwencje tokenów ze wszystkich modalności. Mechanizm uwagi (self-attention) operuje na połączonej sekwencji, pozwalając tokenom różnych modalności wzajemnie na siebie wpływać.
Cel treningowy stosowany jednocześnie do danych ze wszystkich modalności. Typowo jest to autoregresywne przewidywanie kolejnego tokenu (next-token prediction) na interleaved sekwencjach multimodalnych, bez oddzielnych faz wstępnego treningu per modalność.
Oficjalna
Osobne głowice wyjściowe mapujące wewnętrzną reprezentację transformera na przestrzeń wyjściową właściwą dla danej modalności. Mogą obejmować głowicę językową (softmax nad słownikiem tekstowym) oraz głowicę wizualną (softmax nad słownikiem tokenów obrazu lub dekoder obrazu).
Oficjalna
Określa, czy modalności są łączone na poziomie wejścia (early fusion) lub po oddzielnym kodowaniu (late fusion). Decyduje o tym, na jakim etapie może po raz pierwszy wystąpić uwaga krzyżowa między modalnościami (cross-modal attention).
Określa, czy modalności inne niż tekstowa są reprezentowane jako dyskretne tokeny (za pomocą VQ-VAE), czy jako ciągłe osadzenia (continuous embeddings) rzutowane na wspólną przestrzeń.
Jakie modalności są uwzględnione we wspólnym pretreningu: tylko tekst i obraz, czy również audio, wideo oraz dane sensoryczne.
Czy warstwy MoE są wbudowane w celu umożliwienia niejawnej specjalizacji ekspertów dla poszczególnych modalności, zwiększając efektywność parametryczną.
Podstawowy wzorzec wykonania jest gęsty (dense): wszystkie parametry transformera są aktywowane dla każdego tokenu, niezależnie od modalności. Warianty z MoE wprowadzają warunkową aktywację ekspertów, jednak bazowy paradygmat natywnie multimodalny nie wymaga routingu.
Trening na interleaved danych multimodalnych jest możliwy do zrównoleglenia na urządzeniach (data parallelism, tensor parallelism), jednak sekwencyjna natura autoregresywnego dekodowania ogranicza równoległość w trakcie inferencji. Trening od zera na danych wielu modalności wymaga dużej liczby GPU/TPU.
Trening i inferencja natywnych modeli multimodalnych opiera się na dużych matrycowych operacjach transformera (QKV projections, FFN), które są zoptymalizowane dla tensorowych rdzeni GPU (np. NVIDIA H100, A100, GB200). Chameleon trenowany był na klastrach GPU A100.
Google Gemini — jeden z kluczowych natywnych modeli multimodalnych — trenowany był na TPU v4/v5. Architektura transformerowa jest dobrze dopasowana do macierzowych akceleratorów TPU.