AGIEval
Jak działa
Zbior zawiera pytania z oficjalnych egzaminów, pogrupowane wedlug typów: pytania wielokrotnego wyboru (MC), pytania z freetext, zadania matematyczne. Modele sa oceniane zarówno zero-shot jak i few-shot. Wyniki sa porównywane ze srednía ludzka dla kazdego egzaminu.
Rozwiązany problem
Sztuczne benchmarki nie odzwierciedlaja trudnosci zadan, z jakimi modele AI moga sie spotykac w rzeczywistym zastosowaniu. AGIEval umieszcza ewaluacje w kontekscie ludzkiego poznania i decyzji poprzez uzycie egzaminów uzywanych do oceny kompetencji ludzi.
Implementacja
Czesd zadan jest w jezyku chinskim, co moze wykrzywicd wyniki modeli slabszych w tym jezyku.
Ewolucja
Zhong et al. z Microsoft Research prezentuje benchmark egzaminów kwalifikacyjnych. GPT-4 przekracza srednia ludzka na SAT i LSAT.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark tekstowy niezalezny od sprzetu.