Robocikowo>ROBOCIKOWO
Ocena jakości

AGIEval

2023AktywnyOpublikowany
Benchmark oparty na rzeczywistych egzaminach kwalifikacyjnych dla ludzi (SAT, LSAT, matura, olimpiady matematyczne) oceniajacy modele fundamentowe w kontekscie ludzko-centrycznym.
Kluczowa innowacja
Pierwszy benchmark zakorzeniony w rzeczywistych egzaminach kwalifikacyjnych dla ludzi (matura, LSAT, SAT, olimpiady matematyczne, egzaminy radcowskie) zamiast sztucznie skonstruowanych zadan, pozwalajacy oceniac modele AI w kontekscie zadan majacych realne znaczenie dla spoleczenstwa.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
ewaluacja modeli fundamentowychporównanie AI vs czlowiektestowanie wiedzy i rozumowaniaewaluacja dwujezyczna

Jak działa

Zbior zawiera pytania z oficjalnych egzaminów, pogrupowane wedlug typów: pytania wielokrotnego wyboru (MC), pytania z freetext, zadania matematyczne. Modele sa oceniane zarówno zero-shot jak i few-shot. Wyniki sa porównywane ze srednía ludzka dla kazdego egzaminu.

Rozwiązany problem

Sztuczne benchmarki nie odzwierciedlaja trudnosci zadan, z jakimi modele AI moga sie spotykac w rzeczywistym zastosowaniu. AGIEval umieszcza ewaluacje w kontekscie ludzkiego poznania i decyzji poprzez uzycie egzaminów uzywanych do oceny kompetencji ludzi.

Implementacja

Pułapki implementacyjne
Jezyk chinskim w czesci zadanŚrednia

Czesd zadan jest w jezyku chinskim, co moze wykrzywicd wyniki modeli slabszych w tym jezyku.

Rozwiązanie:Raportuj wyniki osobno dla podzbiorów EN i ZH.

Ewolucja

Oryginalny paper · 2023 · arXiv 2023 · Wanjun Zhong
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen, Nan Duan
2023
Publikacja AGIEval (arXiv, kwiecien 2023)
Punkt przełomowy

Zhong et al. z Microsoft Research prezentuje benchmark egzaminów kwalifikacyjnych. GPT-4 przekracza srednia ludzka na SAT i LSAT.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark tekstowy niezalezny od sprzetu.