Innovator-VL: Nowe AI dla nauki, które zawstydza gigantów

Chińscy naukowcy zaprezentowali Innovator-VL – multimodalny model sztucznej inteligencji, który osiąga przełomowe wyniki w dziedzinach naukowych, korzystając z ułamka danych treningowych swojej konkurencji. To ewidentny dowód na to, że w świecie AI precyzyjna selekcja informacji i transparentność procesu uczenia stają się ważniejsze niż ślepe pompowanie miliardów parametrów, co docelowo może drastycznie obniżyć koszty automatyzacji badań.

Najważniejsze w skrócie:

Jakość, nie ilość: Innovator-VL to 8-miliardowy model osiągający topowe wyniki w naukowych benchmarkach (chemia, fizyka, biologia) przy użyciu niespełna 5 milionów wyselekcjonowanych próbek.
Pogromca gigantów w chemii: W specjalistycznych testach (np. rozpoznawanie reakcji chemicznych) deklasuje modele o podobnej wielkości, uzyskując wyniki rzędu 60%, podczas gdy rywale nie przekraczają 17%.
Mistrz optymalizacji: Model zużywa do 66% mniej tokenów podczas rozwiązywania problemów matematycznych i logicznych, oferując znacznie lepszy stosunek precyzji do kosztu obliczeniowego.
Pełna transparentność: Twórcy udostępnili zreprodukowany krok po kroku, w pełni jawny proces treningowy, w tym rzadko publikowane zestawy danych do uczenia ze wzmocnieniem (RL).

Koniec z dyktaturą "Big Data". Liczy się spryt

Przez ostatnie lata branża technologiczna żyła w przekonaniu, że jedyną drogą do stworzenia potężnego modelu LLM jest karmienie go absolutnie wszystkim, co uda się zeskrapować z internetu. Zespoły badawcze ze School of Artificial Intelligence (Shanghai Jiao Tong University) oraz instytucji takich jak DP Technology i Chińska Akademia Nauk postanowiły pójść pod prąd.

Ich najnowsze dzieło, Innovator-VL, to system wizyjno-językowy, który udowadnia, że do zrozumienia skomplikowanych zagadnień naukowych nie potrzeba petabajtów danych. Zamiast budować na masowym, często zaszumionym pre-treningu w specyficznej domenie naukowej, badacze postawili na wysokiej jakości architekturę bazową i chirurgicznie precyzyjne dostrajanie (Supervised Fine-Tuning). Wykorzystali do tego rygorystyczny proces, w którym syntetycznie generowane dane były weryfikowane przez prawdziwych ekspertów z danych dziedzin. Efekt? System rozumie skomplikowane wykresy, ryciny z mikroskopów elektronowych i struktury molekularne lepiej niż wiele modeli wielokrotnie od niego większych.

Anatomia innowacji: Jak to działa?

Pod maską Innovator-VL znajdziemy starannie dobrane i zoptymalizowane komponenty. Rolę "oczu" pełni koder wizyjny RICE-ViT, który nie tylko patrzy na obraz całościowo, ale potrafi wyłuskiwać semantykę poszczególnych regionów. Ma to krytyczne znaczenie w nauce, gdzie liczy się odczytanie maleńkiego symbolu na wykresie lub pojedynczego wiązania w cząsteczce chemicznej. "Mózgiem" językowym jest sprawdzony model Qwen3-8B-Base.

Podział danych według etapów treningu — Wykresy te ilustrują, jak zmieniały się źródła i proporcje danych w trzech kluczowych fazach powstawania modelu Innovator-VL

Prawdziwa innowacja leży jednak w tym, jak model "myśli". W fazie uczenia ze wzmocnieniem (Reinforcement Learning) zastosowano podejście oparte na ścieżkach logicznych typu chain-of-thought. Twórcy użyli algorytmu GSPO (Group Sequence Policy Optimization), który nagradza model nie tylko za podanie prawidłowej odpowiedzi na końcu, ale za ustrukturyzowany i poprawny proces myślowy rozpisany w specjalnych tagach <think>. System musiał przejść przez hierarchiczny mechanizm weryfikacji nagród – od sprawdzania poprawnego formatowania matematycznego, po ostateczną ocenę "sędziego" (potężnego modelu pomocniczego), który weryfikował sensowność otwartych odpowiedzi.

Architektura Innovator-VL: Natywna rozdzielczość i zaawansowane rozumowanie — Schemat przedstawia unikalny przepływ informacji w modelu Innovator-VL. System wykorzystuje koder wizyjny RICE-ViT do analizy obrazów w ich natywnej rozdzielczości, co pozwala na precyzyjne wyłapywanie detali naukowych, takich jak wzory chemiczne czy opisy na wykresach. Następnie moduł Patch Merger kompresuje dane wizualne, które wraz z tokenami tekstowymi trafiają do dekodera językowego Qwen3-Base, generującego końcową odpowiedź wraz z jawnym procesem myślowym.

Mini-porównanie: Innovator-VL na tle rynkowych rywali

Rozwój narzędzi klasy GenAI przyzwyczaił nas do modeli, które są świetne w pisaniu e-maili i opisywaniu zdjęć psów, ale potykają się na czytaniu patentów chemicznych. Jak na ich tle wypada Innovator-VL?

Porównując go do czołowych otwartych modeli o zbliżonej wielkości (7–9 miliardów parametrów) – takich jak Qwen3-VL-8B, InternVL3.5-8B czy LLaVA-OneVision-1.5 – chiński projekt prezentuje się jako model o dwóch twarzach, obu niezwykle kompetentnych. W ogólnych zadaniach wizyjnych (np. odpowiadanie na pytania do zwykłych zdjęć) dorównuje liderom, osiągając średni wynik 74.5%.

Jednak w domenach ścisłych dochodzi do prawdziwego nokautu. W testach zrozumienia reakcji chemicznych (OpenRxn) czy parsowania molekuł (MolParse) Innovator-VL osiąga wyniki rzędu 57-65%. Co na to konkurencja? Większość z wymienionych modeli oscyluje tam w granicach... 3% do 16%. Inne systemy, które próbowały specjalizacji naukowej, zazwyczaj traciły swoje umiejętności ogólne – w języku branżowym nazywa się to zjawiskiem "katastroficznego zapominania". Innovator-VL udowadnia, że można zintegrować wiedzę ekspercką bez wymazywania kompetencji ogólnych. Podobne optymalizacje widzimy u gigantów takich jak DeepSeek-AI czy Zhipu AI, ale rzadko z tak silnym naciskiem na stricte laboratoryjną wielomodalność.

Mniej tokenów, więcej sensu (Wydajność)

Jednym z najbardziej fascynujących wniosków z publikacji jest "efektywność tokenowa" modelu. Obecnie panuje trend zmuszania modeli do długiego "myślenia" w czasie inferencji (test-time compute). Często skutkuje to generowaniem potężnych bloków niepotrzebnego tekstu.

Innovator-VL-8B-Thinking jest pod tym względem minimalistą. W benchmarkach matematycznych (np. WeMath) generuje średnio tylko 564 tokeny, podczas gdy konkurencyjny Intern-S1-mini potrzebuje ich aż 1640. Mimo tak krótkich wypowiedzi, Innovator-VL podaje więcej poprawnych odpowiedzi. Taki stosunek trafności do liczby wygenerowanych tokenów przekłada się bezpośrednio na mniejsze zużycie serwerów. Mniej zmarnowanych cykli procesora oznacza niższe opóźnienia i wyraźnie wyższy ROI dla instytucji naukowych i firm wdrażających to rozwiązanie na wielką skalę.

Porównanie wydajności Innovator-VL z modelami SOTA w domenach ogólnych, logicznych i naukowych — Wykresy przedstawiają wyniki modelu Innovator-VL na tle czołowych rozwiązań MLLM o podobnej skali parametrów (7B-9B). Pierwszy rząd prezentuje model Instruct w zadaniach ogólnowizualnych, natomiast rzędy drugi i trzeci obrazują przewagę modelu Thinking w zadaniach wymagających rozumowania matematycznego i głębokiej wiedzy naukowej. Szczególnie widoczna jest dominacja w zadaniach chemicznych (OpenRxn, MolParse), gdzie Innovator-VL deklasuje konkurencję, osiągając wyniki wielokrotnie wyższe od pozostałych modeli

Dlaczego to ważne?

Pojawienie się Innovator-VL to coś więcej niż tylko kolejny wpis w tabeli wyników na platformach testowych. To sygnał ostrzegawczy dla zamkniętych ekosystemów i wielkich korporacji tworzących tzw. modele fundacyjne. Giganci komercyjni przyzwyczaili nas do ukrywania szczegółów trenowania, twierdząc, że bez centrów danych wartych miliardy dolarów nie da się zbudować użytecznego systemu. Czołowe modele od Anthropic czy OpenAI z pewnością są potężne, ale ich trening to czarna skrzynka.

Tymczasem konsorcjum stojące za Innovator-VL otwiera karty. Pokazuje, że sztuczna inteligencja zdolna do analizowania mikroskopii elektronowej, odczytywania skomplikowanych schematów z publikacji PDF czy prowadzenia logicznego dowodzenia matematycznego, może zostać wytrenowana na precyzyjnej, liczącej zaledwie kilka milionów sztuk bazie danych. Pokazuje również wagę "człowieka w pętli" (human-in-the-loop) – procesu, w którym eksperci odrzucali złe syntetyczne dane i poprawiali trudne przypadki, by nakarmić algorytm wyłącznie złotymi próbkami.

Dla uniwersytetów, mniejszych laboratoriów farmaceutycznych czy startupów z branży Materials Science, to fenomenalna wiadomość. Oznacza to, że mogą one rozwijać, dostrajać i uruchamiać wyspecjalizowaną sztuczną inteligencję lokalnie, na własnym, relatywnie skromnym sprzęcie, zachowując przy tym pełną prywatność swoich przełomowych badań.

Co dalej?

Twórcy modelu nie zamierzają osiadać na laurach i wprost wskazują ścieżki dalszego rozwoju:

Integracja z automatyką laboratoryjną: Docelowo model ma napędzać fizyczne systemy do automatycznego projektowania eksperymentów i generowania hipotez.
Nowe wymiary danych: rozszerzenie percepcji modelu o analizę sekwencji wideo, w pełni trójwymiarowe struktury molekularne oraz dane z szeregów czasowych.
Zwiększona dostępność: prace nad dalszą kompresją wag modelu i mechanizmami, które pozwolą na jego swobodne uruchamianie w warunkach o drastycznie ograniczonych zasobach sprzętowych (np. bezpośrednio na sprzęcie diagnostycznym w laboratoriach).

Źródło: arXiv: Innovator-VL: A Multimodal Large Language Model for Scientific Discovery