Robocikowo>ROBOCIKOWO
Ocena jakości

HELM

2022AktywnyOpublikowany
Holistic Evaluation of Language Models – wielowymiarowy framework ewaluacji LLM z 7 metrykami na 42 scenariuszach, opracowany przez Stanford CRFM.
Kluczowa innowacja
Pierwsza wielowymiarowa platforma ewaluacyjna LLM mierzaca jednoczesnie 7 metryk (dokladnosc, kalibracja, odpornosc, sprawiedliwosc, stronniczosc, toksycznosc, wydajnosc) na 42 scenariuszach, ujawniajaca kompromisy pomiedzy modelami niewidoczne przy jednowymiarowym rankingu.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
holistic LLM evaluationmodel comparisonAI transparency researchsafety and fairness assessment

Jak działa

HELM definiuje taksonomie scenariuszy (dziedzina x zadanie x metryka) i wybiera reprezentatywny podzbiór. Kazdy z 30 modeli jest ewaluowany na tych samych promptach w ustandaryzowanych warunkach. Wyniki 7 metryk sa raportowane per scenariusz i agregowane do profilu modelu. Platforma jest hostowana przez Stanford CRFM z publicznym dostepem do surowych danych.

Rozwiązany problem

Fragmentarycznosc i selektywnosc ewaluacji LLM – modele byly porównywane na roznych zbiorach z roznymi metrykami, co uniemozliwialo rzetelne porównania i ukrywalo wazne kompromisy (np. wysoka dokladnosc przy wysokiej toksycznosci).

Implementacja

Pułapki implementacyjne
Koszt obliczeniowy pelnej ewaluacjiŚrednia

Ocena 30 modeli na 42 scenariuszach jest kosztowna obliczeniowo i finansowo, co ogranicza dostepnosc pelnej ewaluacji.

Rozwiązanie:Uzywaj podzbioru scenariuszy core (16) i wlasnego modelu referencyjnego.

Ewolucja

Oryginalny paper · 2022 · Transactions on Machine Learning Research (TMLR) 2023 · Percy Liang
Holistic Evaluation of Language Models
Percy Liang, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Christopher D. Manning, Christopher Re
2022
Publikacja HELM (arXiv + TMLR)
Punkt przełomowy

Percy Liang i 49 wspolautorów prezentuje framework; 30 modeli ewaluowanych na 42 scenariuszach.

2023
HELM opublikowany w TMLR, rozszerzony o nowe modele

Wersja v2 rozszerza benchmark o modele z 2023 roku i nowe scenariusze.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Framework ewaluacyjny niezalezny od architektury sprzetowej – ewaluacja odbywa sie przez API lub lokalne wywolania modeli.