MMLU-Pro
Jak działa
Zbior rozszerza MMLU przez: (1) konsolidacje ze zródlami zewnetrznymi w celu usuniecia pytañ banalnych; (2) rozszerzenie opcji do 10 na pytanie; (3) dodanie pytan wieloetapowych wymagajacych rozumowania. Modele sa oceniane zero-shot i CoT; wyniki pokazuja, ze CoT jest efektywniejszy na MMLU-Pro niz na oryginalnym MMLU.
Rozwiązany problem
Nasycenie oryginalnego MMLU przez modele frontier (>85-90%) i jego wrazkliwosc na wariacje promptow, co uniemozliwialo rozroznianie zdolnosci miedzy najlepszymi modelami.
Implementacja
Prompt z 10 opcjami odpowiedzi jest dluzszy, co zwieksza koszt ewaluacji few-shot przy dlugich przykładach.
Ewolucja
Wang et al. publikuja ulepszona wersje MMLU z 10 opcjami i pytaniami rozumowania; wyniki modeli spadaja o 16-33%.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark tekstowy niezalezny od sprzetu ewaluacyjnego.