Robocikowo>ROBOCIKOWO
Ocena jakości

IMEB

2026BadawczyOpublikowany
Benchmark 300 instancji do oceny agentów multimodalnych pod kątem jednoczesnej dokładności i efektywności wyszukiwania wielu encji.
Kluczowa innowacja
Pierwszy benchmark dla agentów multimodalnych oceniający jednocześnie dokładność i efektywność inferencji (koszt narzędzi), wypełniając lukę benchmarków mierzących wyłącznie accuracy.
Kategoria
Ocena jakości
Poziom abstrakcji
Primitive
Poziom operacji
Ewaluacja (runtime)
Zastosowania
Ewaluacja agentów multimodalnych pod kątem efektywności wyszukiwaniaPorównywanie modeli pod kątem accuracy vs. kosztu inferencjiBenchmarkowanie systemów visual search w e-commerceOcena równoległości wyszukiwania w systemach agentowych

Jak działa

Każda instancja IMEB to obraz z pytaniem wymagającym identyfikacji wielu encji jednocześnie (np. 6 osób, wiele produktów, wiele obiektów naukowych). Oceniany jest: (1) accuracy — czy odpowiedź jest poprawna; (2) liczba rund wywołań narzędzi; (3) CAS = poprawnych zwrotów informacji / liczba wywołań narzędzi. HyperEyes-30B osiąga na IMEB 64,0% przewagi nad drugim najlepszym modelem.

Rozwiązany problem

Benchmarki dla agentów multimodalnych nagradzają wyłącznie dokładność, pomijając koszt inferencji. Agent, który odpowiada poprawnie po 12 rundach wywołań narzędzi, jest traktowany tak samo jak agent odpowiadający po 3 rundach. IMEB wprowadza efektywność jako mierzalny wymiar jakości.

Implementacja

Pułapki implementacyjne
Mała liczba próbek (300) ogranicza statystyczną istotnośćŚrednia

Benchmark składa się z 300 instancji — różnice między modelami rzędu kilku punktów procentowych mogą nie być statystycznie istotne. Zaleca się bootstrap confidence intervals przy porównaniach.

Brak standaryzacji liczby encji per instancjaŚrednia

Instancje IMEB różnią się liczbą encji do identyfikacji. Modele lepiej radzące sobie z małą liczbą encji mogą wypadać lepiej na zbiorze nie dlatego, że są bardziej równoległe, lecz dlatego, że trafiają na łatwiejsze instancje.

CAS wrażliwy na definicję poprawnego zwrotu informacjiŚrednia

Metryka CAS zakłada binarną ocenę poprawności zwróconej informacji. W praktyce odpowiedzi mogą być częściowo poprawne, co wymaga jasnych reguł gradacji — brak ich standaryzacji utrudnia porównania między implementacjami.