Robocikowo>ROBOCIKOWO
Trening

ReFL

2023AktywnyAktualizacja: 12 maja 2026Opublikowany
ReFL to algorytm fine-tuningu modeli dyfuzyjnych poprzez propagację gradientów z różniczkowalnego modelu nagrody, dopasowujący generowane obrazy do preferencji człowieka.
Kluczowa innowacja
Bezpośrednio propaguje gradienty z różniczkowalnego modelu nagrody (np. ImageReward) przez wybrane kroki denoisingu modelu dyfuzyjnego, dostrajając go pod preferencje człowieka bez kosztownego RL.
Kategoria
Trening
Poziom abstrakcji
Pattern
Zastosowania
Fine-tuning text-to-imageAlignment modeli dyfuzyjnych do preferencji estetycznychKorekta artefaktów anatomicznychZwiększanie zgodności prompt-obrazPersonalizacja stylu generacji

Jak działa

Pipeline ReFL: (1) Wytrenowany wcześniej model nagrody (np. ImageReward) potrafi przewidzieć skalarny score odpowiadający ludzkiej preferencji dla pary tekst-obraz. (2) Podczas fine-tuningu modelu dyfuzyjnego losowany jest krok denoisingu t z późnego zakresu (np. ostatnie 10 z N kroków). (3) Z tego kroku predykowany jest finalny czysty obraz x̂₀ przez różniczkowalną aproksymację. (4) Model nagrody R(prompt, x̂₀) zwraca skalar; (5) Gradient ∂R/∂θ jest propagowany wstecz przez denoising do parametrów UNet-a. (6) Optymalizacja maksymalizuje E[R] z regularyzacją wobec oryginalnego modelu (KL-like lub wczesne kroki bez modyfikacji), zapobiegając „reward hackingowi".

Rozwiązany problem

Klasyczne RLHF dla modeli generujących obrazy jest kosztowne (PPO wymaga wielu próbek, ma wysoką wariancję), a Supervised Fine-Tuning na obrazach wybranych przez ludzi jest ograniczony rozmiarem zbiorów preferencji. ReFL rozwiązuje oba problemy korzystając z różniczkowalnego modelu nagrody — eliminuje potrzebę próbkowania politiki i pozwala uczyć model dyfuzyjny bezpośrednio z sygnału preferencji.

Komponenty

Różniczkowalny model nagrodyŹródło sygnału uczącego

Sieć (np. ImageReward bazujący na CLIP/BLIP) wytrenowana na zbiorze preferencji człowieka, zwracająca skalar R(prompt, image). Musi być różniczkowalna względem obrazu wejściowego.

Oficjalna

Model dyfuzyjny (UNet)Generator fine-tunowany

Sieć denoisingu (najczęściej UNet w Stable Diffusion lub DiT w nowszych modelach) — obiekt fine-tuningu. Aktualizowana są jej parametry (lub adaptery LoRA).

Predykcja x₀Most między denoisingiem a reward modelem

Krok aproksymacji końcowego czystego obrazu z pośredniego stanu zaszumionego x_t (formuła zależna od schedulera, np. DDIM). Niezbędny aby model nagrody mógł ocenić wynik.

Oficjalna

Selektor późnego kroku denoisinguWybór punktu obliczania gradientu

Komponent losujący krok t z późnego zakresu (zwykle ostatnich kilku z N) — kompromis między jakością gradientu (niższy szum, lepszy x̂₀) a kosztem pamięciowym propagacji wstecznej.

Oficjalna

Implementacja

Pułapki implementacyjne
Reward hackingKrytyczna

Bez regularyzacji model dyfuzyjny szybko nauczy się generować artefakty maksymalizujące wyłącznie reward, kosztem realizmu i różnorodności.

Rozwiązanie:Stosowanie pretraining loss na wczesnych krokach denoisingu, KL-regularyzacja względem modelu bazowego, ograniczanie liczby kroków treningu.
Wysokie zużycie pamięciWysoka

Backpropagation przez wiele kroków denoisingu wymaga przechowywania wszystkich pośrednich aktywacji UNet-a — szybko przekracza VRAM nawet na A100/H100.

Rozwiązanie:Gradient checkpointing, ograniczenie zakresu kroków late_step_range, fine-tuning przez LoRA zamiast pełnych wag.
Spadek różnorodności (mode collapse)Wysoka

Optymalizacja pod skalarny reward redukuje różnorodność generacji do wąskiego rozkładu obrazów wysoko ocenianych przez reward model.

Rozwiązanie:Mieszane batche z pretraining loss, użycie kilku reward modeli, wczesne zatrzymanie treningu.
Bias modelu nagrodyŚrednia

Wszelkie biasy w danych preferencji człowieka, na których trenowany był reward model, są przenoszone i wzmacniane w fine-tunowanym modelu dyfuzyjnym.

Rozwiązanie:Audyt zbioru preferencji, ensemble wielu reward modeli z różnymi danymi treningowymi.

Ewolucja

Oryginalny paper · 2023 · NeurIPS 2023 · Jiazheng Xu
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation
Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Xu, Weiyun Zhang, Jie Tang, Yuxiao Dong
2023
Wprowadzenie ReFL w pracy ImageReward
Punkt przełomowy

Xu et al. publikują ImageReward i algorytm ReFL jako pierwsze podejście wykorzystujące różniczkowalny reward model do fine-tuningu modeli dyfuzyjnych.

2023
DRaFT — gradient backpropagation przez pełną trajektorię

Clark et al. publikują DRaFT, rozszerzenie idei ReFL z propagacją gradientu przez większą liczbę kroków denoisingu.

2023
AlignProp — stabilna propagacja gradientu reward przez denoising

Prabhudesai et al. publikują AlignProp z dodatkowymi technikami stabilizacji gradientu w długich łańcuchach denoisingu.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Zakres późnych krokówWysoka

Z którego zakresu kroków denoisingu losowany jest punkt obliczenia gradientu reward.

1–10 ostatnich z 40Ustawienie z oryginalnego paper ImageReward.
1–5 ostatnichKonserwatywne, mniej memory-heavy.
Waga reward lossWysoka

Współczynnik mnożący loss z reward modelu w połączeniu z regularyzacją (zwykle pretraining loss).

Strategia regularyzacjiKrytyczna

Sposób zapobiegania reward hackingowi: pre-training loss na wczesnych krokach, KL do oryginalnego modelu, ograniczenia LoRA.

Rozmiar batchaŚrednia

Limitowany pamięcią — backpropagation przez denoising jest pamięciożerna.

Paradygmat wykonania

Tryb główny
dense

ReFL nie modyfikuje paradygmatu wykonania modelu dyfuzyjnego — pozostaje on dense. Modyfikuje tylko fazę uczenia.

Wzorzec aktywacji
all_paths_active

Równoległość

Poziom równoległości
partially_parallel

Trening jest data-parallel, ale wymaga pamięci wystarczającej na backpropagation przez wiele kroków denoisingu — typowo ogranicza efektywny per-device batch size.

Zakres
trainingacross_devices

Wymagania sprzętowe

Podstawowe

ReFL wymaga równoczesnego forward i backward przez UNet plus reward model — najlepiej skaluje się na GPU z dużą pamięcią (A100 80GB, H100).

Dobry fit

TPU obsługują operacje fine-tuningu modeli dyfuzyjnych, ale większość referencyjnych implementacji ReFL pochodzi z PyTorch/CUDA.