Oficjalna
Oficjalna
Złożoność czasowa: O(L · k · d) per layer. Złożoność przestrzenna: O(L · d_r) GPU VRAM + O(L · n · d) CPU RAM.
Tylko k wybranych bloków K/V dokumentów uczestniczy w obliczaniu atencji. Routing stosowany jest wyłącznie w górnych warstwach; dolne warstwy przetwarzają każdy dokument niezależnie (gęsto, per-dokument).
Trenowanie jest równolegle między dokumentami (każdy dokument przetwarzany niezależnie w niższych warstwach). Wnioskowanie wykorzystuje silnik Memory Parallel do rozproszonego scoringu routera na wielu urządzeniach. Selekcja top-k oraz następujące po niej pobieranie K/V są sekwencyjne w obrębie każdego kroku dekodowania.
Liczba bloków dokumentów pobieranych w każdym kroku zapytania. Steruje kompromisem między precyzją a kosztem obliczeniowym: wyższa wartość k poprawia pokrycie (recall) kosztem większej liczby transferów K/V i większego nakładu obliczeniowego mechanizmu uwagi.
Rozmiar okna tokenów na dokument używany podczas treningu. Dzięki Document-wise RoPE modele trenowane na krótkich kontekstach (np. 4K–64K tokenów) mogą ekstrapolować do banków pamięci zawierających ponad 100M tokenów podczas inferencji, bez konieczności ponownego treningu.
Routing (warstwa MSA) jest stosowany wyłącznie w górnych warstwach transformera; dolne warstwy przetwarzają dokumenty niezależnie. Podział między warstwami lokalnymi a warstwami z routingiem pamięci wpływa zarówno na pojemność pamięci, jak i na głębokość wnioskowania.
Całkowita liczba tokenów przechowywanych w długoterminowym banku pamięci. MSA zostało zwalidowane dla maksymalnie 100M tokenów na 2×A800 GPU.
MSA wymaga rdzeni Tensor Core GPU do wydajnego obliczania atencji transformera oraz punktacji routera. Zwalidowana konfiguracja wykorzystuje 2×A800 GPU do inferencji na 100M tokenów, przy czym klucze routingu są przechowywane w VRAM GPU, a pełne K/V w RAM CPU.