Trening

DMD2

2024AktywnySzkic

DMD2 to algorytm destylacji modeli dyfuzyjnych do generatorów kilkukrokowych poprzez dopasowanie dystrybucji oraz wsparcie GAN, eliminujący regression loss z oryginalnego DMD.

Kluczowa innowacja

Destyluje wielokrokowy model dyfuzyjny do generatora 1–4 krokowego bez kosztownej regresji na wygenerowanym datasecie nauczyciela, dzięki two time-scale update rule (TTUR) oraz dodatkowemu sygnałowi GAN-owemu od prawdziwych danych.

Kategoria

Trening

Poziom abstrakcji

Pattern

Zastosowania

Destylacja Stable Diffusion XL do 1–4 krokówGeneracja obrazów real-timeMobilne aplikacje text-to-imageEdycja obrazów z niską latencjąSkalowanie inference text-to-image w produkcji

Jak działa

Pipeline DMD2 wykorzystuje trzy sieci: (1) zamrożony nauczyciel — pretrenowany model dyfuzyjny (np. SDXL) zapewniający „real score” przybliżający gradient logarytmu prawdziwej dystrybucji; (2) generator G — trenowany do mapowania szumu na obraz w 1–4 krokach; (3) fake score model — uczony równolegle do śledzenia dystrybucji wytwarzanej przez G. Strata destylacji to KL divergence między dystrybucją G a dystrybucją prawdziwych obrazów, której gradient względem parametrów G jest równy (score_fake − score_real) przepropagowane przez generator. TTUR aktualizuje fake score model co krok, a generator co kilka kroków — co zapobiega niestabilności. Dodatkowo trenowany jest dyskryminator GAN-owy odróżniający próbki G od prawdziwych obrazów; jego sygnał dodaje straty adversarialnej poprawiającej szczegóły. Cała procedura nie wymaga wygenerowanego z nauczyciela datasetu, co odróżnia DMD2 od DMD v1.

Rozwiązany problem

Wielokrokowe modele dyfuzyjne (DDIM/DDPM) wymagają 25–50 ewaluacji sieci na obraz, co czyni je drogimi w inference i niepraktycznymi dla aplikacji real-time. Wcześniejsze metody destylacji (Progressive Distillation, Consistency Models, DMD v1) albo gubiły jakość, albo wymagały drogiej fazy regresji na wygenerowanym datasecie nauczyciela. DMD2 rozwiązuje oba problemy: utrzymuje jakość bliską nauczycielowi przy 1–4 krokach, eliminuje wstępną generację datasetu, i jest bardziej stabilny w treningu dzięki TTUR.

Kluczowe mechanizmy

Distribution Matching loss (KL divergence)

Two Time-scale Update Rule (TTUR)

Auxiliary GAN loss przeciw prawdziwym danym

Multi-step generator (separate noise level heads)

Eliminacja regression loss

Mocne strony i ograniczenia

Mocne strony

✓1–4 kroków inference vs 25–50 dla DDIM

✓Jakość bliska nauczycielowi (FID porównywalny do SDXL)

✓Brak potrzeby wstępnego generowania datasetu z nauczyciela

✓Stabilniejszy trening niż DMD v1 dzięki TTUR

✓Wsparcie konfiguracji multi-step (kompromis jakość–prędkość)

Ograniczenia

✗Wymaga równoczesnego treningu trzech sieci (teacher zamrożony, generator, fake score model)

✗Dyskryminator GAN dodaje wrażliwość hiperparametrów

✗Zysk jakości głównie na detalach wysokoczęstotliwościowych — w 1-step kompozycja może być słabsza

✗Ograniczony do destylacji modeli dyfuzyjnych (nie ma zastosowania do innych typów modeli generatywnych)

Implementacja

Implementacje referencyjne

tianweiy/DMD2 — official MIT/Adobe implementation

Python · Tianwei Yin (MIT) & Adobe Research

Ewolucja

Oryginalny paper · 2024 · NeurIPS 2024 · Tianwei Yin

Improved Distribution Matching Distillation for Fast Image Synthesis

Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Frédo Durand, William T. Freeman

2023

Publikacja oryginalnego DMD (arXiv:2311.18828) — Yin et al. wprowadzają destylację przez dopasowanie dystrybucji z regression loss na wygenerowanym datasecie nauczyciela.

2024

DMD2 (arXiv:2405.14867) — eliminacja regression loss, wprowadzenie TTUR i GAN loss; jakość 4-step SDXL osiąga poziom 50-step nauczyciela.

Punkt przełomowy

2024

Akceptacja DMD2 na NeurIPS 2024 i upublicznienie kodu github.com/tianweiy/DMD2 oraz wag dla SDXL/SD1.5.

Źródła

Improved Distribution Matching Distillation for Fast Image Synthesis

Paper

arXiv

One-step Diffusion with Distribution Matching Distillation

Paper

arXiv

DMD2 — official implementation

Repozytorium

GitHub