Gated DeltaNet

Architektura liniowych transformerów łącząca regułę delta z bramkowaniem, ulepszenie Mamba2 i DeltaNet (NVIDIA Research, MIT CSAIL, ICLR 2025).

🔬 Research🔬 Research onlyLLM

Parametry

0.4B – 1.3B (skala badawcza)

parametrów

Data premiery

9 grudnia 2024

🔬NVIDIALab badawczy 🔬MIT CSAILLab badawczy

Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

Gated DeltaNet to architektura sekwencyjna z rodziny liniowych transformerów, opracowana przez Songlin Yang (MIT CSAIL), Jana Kautza i Aliego Hatamizadeha (NVIDIA Research). Praca „Gated Delta Networks: Improving Mamba2 with Delta Rule" (arXiv:2412.06464) została zgłoszona 9 grudnia 2024 i przyjęta na ICLR 2025. Model łączy bramkowanie (gating) — pozwalające szybko czyścić pamięć — z regułą delta (delta update rule) umożliwiającą precyzyjne, ukierunkowane modyfikacje stanu.

Autorzy publikują wyłącznie kod (PyTorch) na licencji NVIDIA Source Code License-NC (non-commercial); wagi modeli nie są udostępniane. Architektura została zintegrowana z biblioteką Flash Linear Attention i wykorzystana w modelach takich jak Qwen3-Next i OLMo Hybrid. Badania prowadzone w pracy wykorzystywały modele o skalach 0,4B i 1,3B parametrów trenowane na zbiorach FineWeb-Edu i SlimPajama-672B.

Klasyfikacja

LLM

Dostęp i wdrożenie

Pobieranie

Lokalnie

Wagi: Zamknięte

Kluczowe parametry

🧩 Parametry: 0.4B – 1.3B (skala badawcza)

📥 Wejście: tekst

Specyfikacja techniczna

Parametry

0.4B – 1.3B (skala badawcza)

parametrów

Licencja

NVIDIA Source Code License-NC

Modalności

⬇ Wejście (Input)

text

⬆ Wyjście (Output)

text

Możliwości i zastosowania

Natywne możliwości modelu

Modelowanie języka

Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.

Kategoria: language

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Architektura techniczna

Forma modelu (Model Form)

LLLLM

Techniki trenowania (Training Techniques)

PRPretraining

Źródła i powiązane strony

3 źródła

PaperGated Delta Networks: Improving Mamba2 with Delta Rule (ICLR 2025)arxiv.org RepoNVlabs/GatedDeltaNet (GitHub)github.com PaperOpenReview – ICLR 2025openreview.net

Przeglądaj powiązane tematy

🧠 LLM Wszystkie modele llm