DMD2
Jak działa
Pipeline DMD2 wykorzystuje trzy sieci: (1) zamrożony nauczyciel — pretrenowany model dyfuzyjny (np. SDXL) zapewniający „real score” przybliżający gradient logarytmu prawdziwej dystrybucji; (2) generator G — trenowany do mapowania szumu na obraz w 1–4 krokach; (3) fake score model — uczony równolegle do śledzenia dystrybucji wytwarzanej przez G. Strata destylacji to KL divergence między dystrybucją G a dystrybucją prawdziwych obrazów, której gradient względem parametrów G jest równy (score_fake − score_real) przepropagowane przez generator. TTUR aktualizuje fake score model co krok, a generator co kilka kroków — co zapobiega niestabilności. Dodatkowo trenowany jest dyskryminator GAN-owy odróżniający próbki G od prawdziwych obrazów; jego sygnał dodaje straty adversarialnej poprawiającej szczegóły. Cała procedura nie wymaga wygenerowanego z nauczyciela datasetu, co odróżnia DMD2 od DMD v1.
Rozwiązany problem
Wielokrokowe modele dyfuzyjne (DDIM/DDPM) wymagają 25–50 ewaluacji sieci na obraz, co czyni je drogimi w inference i niepraktycznymi dla aplikacji real-time. Wcześniejsze metody destylacji (Progressive Distillation, Consistency Models, DMD v1) albo gubiły jakość, albo wymagały drogiej fazy regresji na wygenerowanym datasecie nauczyciela. DMD2 rozwiązuje oba problemy: utrzymuje jakość bliską nauczycielowi przy 1–4 krokach, eliminuje wstępną generację datasetu, i jest bardziej stabilny w treningu dzięki TTUR.