Tag: Local ai inference

Aktualności6 maja 2026

Google przyspiesza Gemma 4 do 3x dzięki spekulatywnej dekodowaniu

Google udostępniło 6 maja 2026 roku eksperymentalne modele drafter Multi-Token Prediction (MTP) dla rodziny Gemma 4, które przyspieszają lokalną inferencję nawet trzykrotnie bez utraty jakości generowanych odpowiedzi. Technika opiera się na spekulatywnym dekodowaniu: lekki model pomocniczy przewiduje przyszłe tokeny, które następnie są weryfikowane równolegle przez główny model.