Unified Multimodal Tokenizer
Tworzy jednolite wejście dla wspólnego szkieletu transformerowego, umożliwiając sekwencyjne przetwarzanie danych różnych modalności.
Moduł odpowiedzialny za konwersję danych ze wszystkich modalności do wspólnej przestrzeni tokenów. Dla obrazów stosuje się zazwyczaj kwantyzację wektorową (VQ-VAE) generującą dyskretne tokeny wizualne; tekst tokenizowany jest standardowo; audio konwertowane jest do spektrogramów lub dyskretnych tokenów akustycznych.