Obsługa wielu formatów danych

Native Multimodal

Kluczowa innowacja

Model trenowany od podstaw jednocześnie na danych ze wszystkich modalności, co eliminuje konieczność łączenia odrębnych, wstępnie wytrenowanych enkoderów modalności i umożliwia naukę wspólnych reprezentacji międzymodalnych.

Kategoria

Obsługa wielu formatów danych

Poziom abstrakcji

Paradygmat

Poziom operacji

ModelTrening

Zastosowania

Modele rozumiejące obraz i tekst jednocześnie (Gemini)Systemy audio-wizualneGenerowanie treści multimodalnychRoboty percypujące wiele typów sensorówAsystenci obsługujący głos, obraz i tekst razem

Jak działa

Model przetwarza wszystkie modalności (tekst, obraz, audio, wideo) jako ujednolicone tokeny od samego początku treningu. Brak oddzielnych enkoderów — jedna sieć uczy się reprezentacji cross-modalnych bezpośrednio z danych.

Rozwiązany problem

Wczesne modele multimodalne były złożeniami oddzielnych enkoderów (np. CLIP + LLM), co ograniczało integrację modalności. Natywna architektura multimodalna trenuje model od podstaw na wszystkich modalnościach jednocześnie.

Komponenty

Unified Multimodal TokenizerTworzy jednolite wejście dla wspólnego szkieletu transformerowego, umożliwiając sekwencyjne przetwarzanie danych różnych modalności.

Moduł odpowiedzialny za konwersję danych ze wszystkich modalności do wspólnej przestrzeni tokenów. Dla obrazów stosuje się zazwyczaj kwantyzację wektorową (VQ-VAE) generującą dyskretne tokeny wizualne; tekst tokenizowany jest standardowo; audio konwertowane jest do spektrogramów lub dyskretnych tokenów akustycznych.

VQ-VAE image tokenizer

Continuous patch embeddings

Oficjalna

Shared Transformer BackboneCentralna jednostka obliczeniowa modelu; realizuje wspólną reprezentację i rozumowanie między modalnościami.

Pojedynczy stos warstw transformerowych przetwarzający interleaved sekwencje tokenów ze wszystkich modalności. Mechanizm uwagi (self-attention) operuje na połączonej sekwencji, pozwalając tokenom różnych modalności wzajemnie na siebie wpływać.

Joint Pretraining ObjectiveZapewnia wspólną sygnaturę gradientu dla wszystkich modalności podczas treningu, wymuszając naukę reprezentacji cross-modal.

Cel treningowy stosowany jednocześnie do danych ze wszystkich modalności. Typowo jest to autoregresywne przewidywanie kolejnego tokenu (next-token prediction) na interleaved sekwencjach multimodalnych, bez oddzielnych faz wstępnego treningu per modalność.

Oficjalna

Modality-specific Output HeadsUmożliwia generowanie wyjść w wielu modalnościach przy zachowaniu wspólnego szkieletu.

Osobne głowice wyjściowe mapujące wewnętrzną reprezentację transformera na przestrzeń wyjściową właściwą dla danej modalności. Mogą obejmować głowicę językową (softmax nad słownikiem tekstowym) oraz głowicę wizualną (softmax nad słownikiem tokenów obrazu lub dekoder obrazu).

Oficjalna

Implementacja

Implementacje referencyjne

Chameleon (FAIR at Meta)

Python · FAIR at Meta

Oficjalna

Pułapki implementacyjne

Niestabilność treningu przy wczesnej fuzjiWysoka

Rozwiązanie:Zastosowanie query-key normalization (QK-Norm), dostosowanie współczynnika uczenia do skali modelu i modalności, ostrożna kuracja danych interleaved.

Koszt treningu od podstawWysoka

Rozwiązanie:Fazy treningu stopniowanego (curriculum), efektywne mieszanie danych z kontrolą proporcji modalności, wykorzystanie MoE do redukcji FLOP-ów aktywnych na token.

Nierównowaga modalności w danych treningowychŚrednia

Rozwiązanie:Staranna kuracja proporcji danych per modalność; stosowanie oddzielnych tokenizatorów wyważających dystrybucje tokenów.

Trudność generowania w wielu modalnościach jednocześnieŚrednia

Rozwiązanie:Oddzielne głowice wyjściowe per modalność; etapowe wyrównywanie (SFT, RLHF) z danymi obejmującymi mixed-modal outputs.

Ewolucja

Oryginalny paper · 2024 · arXiv 2024 (arXiv:2405.09818) · Chameleon Team (FAIR at Meta)

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon Team (FAIR at Meta)

2021

BEiT i tokenizacja wizualna

BEiT: BERT Pre-Training of Image Transformers (artykuł)

2022

Uczenie z dokumentów mieszanych (Aghajanyan et al.)

2023

Gemini — pierwszy duży model natywnie multimodalny

Punkt przełomowy

Gemini: A Family of Highly Capable Multimodal Models (artykuł)

2024

Chameleon — otwarty model wczesnej fuzji od podstaw

Punkt przełomowy

Chameleon: Mixed-Modal Early-Fusion Foundation Models (artykuł)

2024

GPT-4o — end-to-end trening przez modalności tekst/audio/obraz

Punkt przełomowy

2025

Prawa skalowania dla natywnych modeli multimodalnych (Apple/Sorbonne)

Punkt przełomowy

Scaling Laws for Native Multimodal Models (artykuł)

Hiperparametry (konfigurowalne osie)

Głębokość fuzji modalnościKrytyczna

Określa, czy modalności są łączone na poziomie wejścia (early fusion) lub po oddzielnym kodowaniu (late fusion). Decyduje o tym, na jakim etapie może po raz pierwszy wystąpić uwaga krzyżowa między modalnościami (cross-modal attention).

early fusionTokeny wszystkich modalności łączone są bezpośrednio w jedną sekwencję wejściową — podejście stosowane w Chameleon, GPT-4o.

late fusionOddzielne enkodery przetwarzają każdą modalność, wyniki łączone są na późniejszym etapie — np. LLaVA, Flamingo.

Reprezentacja tokenów modalnościWysoka

Określa, czy modalności inne niż tekstowa są reprezentowane jako dyskretne tokeny (za pomocą VQ-VAE), czy jako ciągłe osadzenia (continuous embeddings) rzutowane na wspólną przestrzeń.

discrete (VQ-VAE)Obrazy kwantyzowane do dyskretnych tokenów — podejście stosowane w Chameleon.

continuous patch embeddingsObrazy reprezentowane jako ciągłe osadzenia fragmentów — podejście stosowane w Gemini.

Zakres modalnościWysoka

Jakie modalności są uwzględnione we wspólnym pretreningu: tylko tekst i obraz, czy również audio, wideo oraz dane sensoryczne.

text + imageNajczęstszy zakres — Chameleon, Aria.

text + image + audio + videoPełny zakres modalności — Gemini, GPT-4o.

Integracja Mixture of ExpertsŚrednia

Czy warstwy MoE są wbudowane w celu umożliwienia niejawnej specjalizacji ekspertów dla poszczególnych modalności, zwiększając efektywność parametryczną.

dense (bez MoE)Chameleon — w pełni gęsty model.

sparse MoEAria, Gemini-styl — MoE umożliwia specjalizację ekspertów per modalność.

Native Multimodal

Jak działa

Rozwiązany problem

Komponenty

Implementacja

Ewolucja

Hiperparametry (konfigurowalne osie)

Paradygmat wykonania

Równoległość

Wymagania sprzętowe