Self-Consistency
Jak działa
Algorytm: (1) Próbkuj k różnych ścieżek CoT z temperaturą T > 0. (2) Wyodrębnij końcową odpowiedź z każdej ścieżki. (3) Wybierz odpowiedź przez głosowanie większością (najczęściej występującą). Typowy zakres to k = 5–40 ścieżek. Metoda nie wymaga żadnego dodatkowego treningu ani modyfikacji modelu — działa na istniejących LLM-ach jako warstwa nad zwykłą inferencją.
Rozwiązany problem
Dekodowanie zachłanne w Chain-of-Thought jest wrażliwe na błędy pojedynczej ścieżki rozumowania — jeden błędny krok propaguje się do końcowej odpowiedzi.
Implementacja
Próbkowanie k ścieżek mnoży koszt inferencji przez k, co bywa kosztowne dla dużych modeli i długich łańcuchów rozumowania.
Gdy odpowiedzi nie są dyskretne i nie podlegają dokładnemu dopasowaniu (np. proza, kod, dłuższe wyjaśnienia), standardowe głosowanie większością jest bezużyteczne.
Bez różnorodności w próbkowaniu (T = 0) wszystkie ścieżki są identyczne i głosowanie nie wnosi żadnej informacji. Wymagana jest temperatura T > 0 lub top-p < 1.
Ewolucja
Wang i in. proponują głosowanie większością nad wieloma ścieżkami CoT, pokazując poprawę o 17,9 pp na GSM8K względem zwykłego CoT.
Późniejsze prace rozszerzają Self-Consistency na zadania otwarte, w których głosowanie przez dokładne dopasowanie odpowiedzi jest niemożliwe (Universal Self-Consistency, Chen i in., 2023).
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Liczba niezależnie próbkowanych ścieżek CoT. Zwiększanie k poprawia stabilność wyniku, ale liniowo zwiększa koszt inferencji.
Temperatura T kontroluje różnorodność ścieżek rozumowania. T = 0 czyni metodę bezużyteczną (brak różnorodności).
Sposób łączenia wyników ścieżek: głosowanie większością (klasyczny wariant), ważone głosowanie po prawdopodobieństwie ścieżki, klasteryzacja semantyczna (Universal Self-Consistency).
Wymagania sprzętowe
Self-Consistency to warstwa nad inferencją LLM — niezależna od konkretnego sprzętu. Wszystkie wywołania to standardowa generacja autoregresywna, dobrze zrównoleglająca się na GPU i TPU.