Ocena jakości

FrontierMath

2024AktywnyOpublikowany

Benchmark setek oryginalnych problemów matematycznych na poziomie badan naukowych, tworzonych przez matematyków-ekspertów. Frontier AI rozwiazuje ponizej 2% (stan na 2024).

Kluczowa innowacja

Benchmark matematyczny na poziomie ekspertów z oryginalnych, niepublikowanych problemów tworzonych przez matematyków-badaczy, gdzie obecne frontier AI rozwiazuje ponizej 2% zadan – ujawniajac przepasc miedzy zdolnosciami AI a kompetencjami spolecznosci matematycznej.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

ewaluacja zaawansowanych zdolnosci matematycznych AIpomiar granicy miedzy AI a ekspertamibadania nad rozumowaniem matematycznymsafety research (przekraczanie poziomu ludzkiego)

Jak działa

Matematycy-eksperci tworza oryginalne problemy poza zakresem istniejacych opublikowanych materiałów. Kazdy problem ma weryfikowalna odpowiedz (liczba, wzor, obiekt matematyczny). Wyniki sa sprawdzane automatycznie za pomoca interpretera Python/Mathematica. Nie udostepnia sie pytan publicznym modelom AI do czasu ich udzielenia odpowiedzi.

Rozwiązany problem

Nasycenie istniejacych benchmarków matematycznych (np. MATH, AMC) przez modele frontier; brak wiarygodnej miary odleglosci miedzy zdolnosciami AI a zdolnosciami wspolczesnych matematyków-badaczy.