Robocikowo>ROBOCIKOWO
Gated DeltaNet

Gated DeltaNet

Architektura liniowych transformerów łącząca regułę delta z bramkowaniem, ulepszenie Mamba2 i DeltaNet (NVIDIA Research, MIT CSAIL, ICLR 2025).
🔬 Research🔬 Research onlyLLM
Parametry
0.4B – 1.3B (skala badawcza)
parametrów
Data premiery
9 grudnia 2024
Dostęp:DownloadWdrożenie:💻 Lokalnie

Przegląd

Gated DeltaNet to architektura sekwencyjna z rodziny liniowych transformerów, opracowana przez Songlin Yang (MIT CSAIL), Jana Kautza i Aliego Hatamizadeha (NVIDIA Research). Praca „Gated Delta Networks: Improving Mamba2 with Delta Rule" (arXiv:2412.06464) została zgłoszona 9 grudnia 2024 i przyjęta na ICLR 2025. Model łączy bramkowanie (gating) — pozwalające szybko czyścić pamięć — z regułą delta (delta update rule) umożliwiającą precyzyjne, ukierunkowane modyfikacje stanu.

Autorzy publikują wyłącznie kod (PyTorch) na licencji NVIDIA Source Code License-NC (non-commercial); wagi modeli nie są udostępniane. Architektura została zintegrowana z biblioteką Flash Linear Attention i wykorzystana w modelach takich jak Qwen3-Next i OLMo Hybrid. Badania prowadzone w pracy wykorzystywały modele o skalach 0,4B i 1,3B parametrów trenowane na zbiorach FineWeb-Edu i SlimPajama-672B.

Klasyfikacja
LLM
Dostęp i wdrożenie
Pobieranie
Lokalnie
Wagi: Zamknięte
Kluczowe parametry
🧩 Parametry: 0.4B – 1.3B (skala badawcza)
📥 Wejście: tekst

Specyfikacja techniczna

Parametry
0.4B – 1.3B (skala badawcza)
parametrów
Licencja
NVIDIA Source Code License-NC
Modalności
⬇ Wejście (Input)
text
⬆ Wyjście (Output)
text

Możliwości i zastosowania

Natywne możliwości modelu
Modelowanie języka
Zdolność przewidywania kolejnych tokenów i generowania spójnego tekstu w języku naturalnym na podstawie poprzedzającego kontekstu.
Kategoria: language
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning

Architektura techniczna

Forma modelu (Model Form)
Techniki trenowania (Training Techniques)