Robocikowo>ROBOCIKOWO
Ocena jakości

FrontierMath

2024AktywnyOpublikowany
Benchmark setek oryginalnych problemów matematycznych na poziomie badan naukowych, tworzonych przez matematyków-ekspertów. Frontier AI rozwiazuje ponizej 2% (stan na 2024).
Kluczowa innowacja
Benchmark matematyczny na poziomie ekspertów z oryginalnych, niepublikowanych problemów tworzonych przez matematyków-badaczy, gdzie obecne frontier AI rozwiazuje ponizej 2% zadan – ujawniajac przepasc miedzy zdolnosciami AI a kompetencjami spolecznosci matematycznej.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
ewaluacja zaawansowanych zdolnosci matematycznych AIpomiar granicy miedzy AI a ekspertamibadania nad rozumowaniem matematycznymsafety research (przekraczanie poziomu ludzkiego)

Jak działa

Matematycy-eksperci tworza oryginalne problemy poza zakresem istniejacych opublikowanych materiałów. Kazdy problem ma weryfikowalna odpowiedz (liczba, wzor, obiekt matematyczny). Wyniki sa sprawdzane automatycznie za pomoca interpretera Python/Mathematica. Nie udostepnia sie pytan publicznym modelom AI do czasu ich udzielenia odpowiedzi.

Rozwiązany problem

Nasycenie istniejacych benchmarków matematycznych (np. MATH, AMC) przez modele frontier; brak wiarygodnej miary odleglosci miedzy zdolnosciami AI a zdolnosciami wspolczesnych matematyków-badaczy.

Implementacja

Pułapki implementacyjne
Zestaw nie jest w pelni publicznyŚrednia

FrontierMath nie udostepnia pytan publicznie, aby zapobiec kontaminacji. Wymaga to kontrolowanego dostepu do ewaluacji.

Rozwiązanie:Skontaktuj sie z autorami w celu uzyskania dostepu do ewaluacji.

Ewolucja

Oryginalny paper · 2024 · arXiv 2024 · Elliot Glazer
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Jaime Sevilla, Lionel Levine
2024
Publikacja FrontierMath (arXiv, listopad 2024)
Punkt przełomowy

Glazer et al. z Epoch AI prezentuja benchmark matematyki badawczej; frontier AI rozwiazuje <2% problemów.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark matematyczny niezalezny od sprzetu; weryfikacja przez interpreter Python.