FrontierMath
Jak działa
Matematycy-eksperci tworza oryginalne problemy poza zakresem istniejacych opublikowanych materiałów. Kazdy problem ma weryfikowalna odpowiedz (liczba, wzor, obiekt matematyczny). Wyniki sa sprawdzane automatycznie za pomoca interpretera Python/Mathematica. Nie udostepnia sie pytan publicznym modelom AI do czasu ich udzielenia odpowiedzi.
Rozwiązany problem
Nasycenie istniejacych benchmarków matematycznych (np. MATH, AMC) przez modele frontier; brak wiarygodnej miary odleglosci miedzy zdolnosciami AI a zdolnosciami wspolczesnych matematyków-badaczy.
Implementacja
FrontierMath nie udostepnia pytan publicznie, aby zapobiec kontaminacji. Wymaga to kontrolowanego dostepu do ewaluacji.
Ewolucja
Glazer et al. z Epoch AI prezentuja benchmark matematyki badawczej; frontier AI rozwiazuje <2% problemów.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark matematyczny niezalezny od sprzetu; weryfikacja przez interpreter Python.