Ocena jakości

IMEB

2026BadawczyOpublikowany

Benchmark 300 instancji do oceny agentów multimodalnych pod kątem jednoczesnej dokładności i efektywności wyszukiwania wielu encji.

Kluczowa innowacja

Pierwszy benchmark dla agentów multimodalnych oceniający jednocześnie dokładność i efektywność inferencji (koszt narzędzi), wypełniając lukę benchmarków mierzących wyłącznie accuracy.

Kategoria

Ocena jakości

Poziom abstrakcji

Primitive

Poziom operacji

Ewaluacja (runtime)

Zastosowania

Ewaluacja agentów multimodalnych pod kątem efektywności wyszukiwaniaPorównywanie modeli pod kątem accuracy vs. kosztu inferencjiBenchmarkowanie systemów visual search w e-commerceOcena równoległości wyszukiwania w systemach agentowych

Jak działa

Każda instancja IMEB to obraz z pytaniem wymagającym identyfikacji wielu encji jednocześnie (np. 6 osób, wiele produktów, wiele obiektów naukowych). Oceniany jest: (1) accuracy — czy odpowiedź jest poprawna; (2) liczba rund wywołań narzędzi; (3) CAS = poprawnych zwrotów informacji / liczba wywołań narzędzi. HyperEyes-30B osiąga na IMEB 64,0% przewagi nad drugim najlepszym modelem.

Rozwiązany problem

Benchmarki dla agentów multimodalnych nagradzają wyłącznie dokładność, pomijając koszt inferencji. Agent, który odpowiada poprawnie po 12 rundach wywołań narzędzi, jest traktowany tak samo jak agent odpowiadający po 3 rundach. IMEB wprowadza efektywność jako mierzalny wymiar jakości.

Implementacja

Pułapki implementacyjne

Mała liczba próbek (300) ogranicza statystyczną istotnośćŚrednia

Benchmark składa się z 300 instancji — różnice między modelami rzędu kilku punktów procentowych mogą nie być statystycznie istotne. Zaleca się bootstrap confidence intervals przy porównaniach.

Brak standaryzacji liczby encji per instancjaŚrednia

Instancje IMEB różnią się liczbą encji do identyfikacji. Modele lepiej radzące sobie z małą liczbą encji mogą wypadać lepiej na zbiorze nie dlatego, że są bardziej równoległe, lecz dlatego, że trafiają na łatwiejsze instancje.

CAS wrażliwy na definicję poprawnego zwrotu informacjiŚrednia

Metryka CAS zakłada binarną ocenę poprawności zwróconej informacji. W praktyce odpowiedzi mogą być częściowo poprawne, co wymaga jasnych reguł gradacji — brak ich standaryzacji utrudnia porównania między implementacjami.

Ewolucja

Oryginalny paper · 2026 · arXiv 2026 · Guankai Li

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

Guankai Li, Jiabin Chen, Yi Xu, Xichen Zhang, Yuan Lu

Źródła

HyperEyes arXiv paper

Paper