Alibaba Health uruchamia Hydronium: medyczny AI oparty na dowodach naukowych

Alibaba Health (阿里健康) 13 maja 2025 roku oficjalnie uruchomiło Hydronium (氢离子) — medyczny asystent AI skierowany do lekarzy klinicznych i badaczy. Produkt debiutuje z wyłącznym partnerstwem z wydawnictwem BMJ (70 periodyków) i deklarowaną halucynacją 2–3 razy niższą niż krajowa konkurencja.

Najważniejsze w skrócie

Premiera Hydronium: 13 maja 2025, Alibaba Health
Halucynacje w ogólnych LLM: Grok 3 — 33,6%, DeepSeek DeepThink — 25% (wg badania Royal College of Surgeons of England)
RAG w kontekście klinicznym zwiększa unsupported claim rate z 5% do 43,6% (8,7x) — badanie medRxiv
Hydronium wdrożył czterowarstwową architekturę: PICO+GRADE, strukturalne RAG, fine-tuning z Rubrics, Experts-in-the-Loop
Baza danych: 60 tys. monografii leków, 30 tys. wytycznych klinicznych, 4 mln case studies

Problem: halucynacje w medycznym AI

Medycyna kliniczna wymaga pewności źródła, a nie prawdopodobieństwa odpowiedzi. Tymczasem badanie opublikowane w oficjalnym periodyku Royal College of Surgeons of England wykazało, że ponad jedna trzecia cytowań generowanych przez popularne modele AI w kontekście chirurgicznym to cytowania zmyślone lub błędne. Grok 3 halucynuje w 33,6% przypadków, DeepSeek DeepThink — w 25%. Niemal połowa wiodących modeli domyślnie nie ujawnia źródeł odpowiedzi medycznych.

Powszechnie stosowanym obejściem jest RAG (retrieval-augmented generation) — podejście polegające na podawaniu modelowi fragmentów historii pacjentów, wytycznych i publikacji naukowych przed generowaniem odpowiedzi. Jednak badanie opublikowane na medRxiv w lutym 2026 roku podważa tę intuicję: po wdrożeniu RAG w klinicznym kontekście unsupported claim rate wzrósł z bazowych 5% do 43,6%, co oznacza 8,7-krotny wzrost ryzyka faktograficznego błędu. Przyczyną jest specyfika literatury klinicznej — fragmenty o podobnym brzmieniu mogą dotyczyć innych populacji pacjentów, innych punktów czasowych lub wzajemnie sprzecznych wyników badań.

Architektura: cztery warstwy certyfikacji dowodów

Hydronium odpowiada na ten problem czterowarstwową architekturą, którą Alibaba Health nazywa „certyfikacją dowodów opartą na medycynie opartej na faktach" (循证医学).

Warstwa pierwsza — zrozumienie medycznych dowodów. System konwertuje teksty kliniczne na strukturyzowane jednostki dowodów według frameworku PICO (Population, Intervention, Comparison, Outcome) i ocenia ich wiarygodność przy użyciu skali GRADE — jednego z dwóch głównych systemów oceny wiarygodności dowodów naukowych, stosowanego przez WHO i ponad 100 organizacji medycznych.

Warstwa druga — strukturalne RAG. PICO jest wstrzykiwany jako zapytanie strukturalne, a nie słownikowe. Zamiast szukać po słowie „ibuprofen u dzieci z gorączką", system automatycznie formułuje zapytanie kliniczne: u dzieci z gorączką (P), ibuprofen (I) w porównaniu z paracetamolem (C), jakie są dowody dotyczące szybkości działania i działań niepożądanych (O)? Pozwala to uniknąć semantycznego dopasowania przy braku dopasowania klinicznego.

Warstwa trzecia — fine-tuning z Reward i Rubrics. Model jest douczany nie na stylu językowym, lecz na zasadach zgodności z dowodem: Reward model definiuje „co jest dobrą odpowiedzią", a Rubrics przekładają wymagania medycyny opartej na faktach na mierzalne kryteria oceny.

Warstwa czwarta — Experts-in-the-Loop. Komitet ponad 300 lekarzy specjalistów, pełniących role „lekarza prowadzącego" i „egzaminatora pierwszego rzędu", recenzuje wyniki AI i identyfikuje słabości poprzednich trzech warstw. Walidacja nie jest celem samym w sobie — każda znaleziona słabość jest sygnałem do korekty warstwy pierwszej, drugiej lub trzeciej.

Dane i partnerstwa

Architektura walidacji ma wartość tylko przy odpowiedniej jakości danych źródłowych. Hydronium deklaruje dostęp do:

60 tys. monografii leków i składników aktywnych
30 tys. krajowych i zagranicznych wytycznych klinicznych
4 mln case studies z literatury naukowej
Baz PubMed i Google Scholar oraz krajowych periodyków naukowych

13 maja 2025 Alibaba Health ogłosiło wyłączne partnerstwo z BMJ (British Medical Journal) — Hydronium stał się pierwszym w Chinach asystentem AI umożliwiającym przeglądanie 70 periodyków BMJ z jednej platformy. Dla 76% chińskich lekarzy, którzy dotychczas mieli ograniczony dostęp do literatury z czołowych czasopism, oznacza to bezpośredni dostęp do dowodów najwyższej klasy.

Porównanie z UpToDate

Produkt jest marketingowo pozycjonowany jako rywal UpToDate (UTD) — popularnego systemu wspomagania decyzji klinicznych opartego na medycynie opartej na faktach. Różnica zadeklarowana przez Alibaba Health: Hydronium akceptuje zapytania w języku naturalnym, głosem i z obrazami — co zbliża interakcję do rozmowy z kolegą klinicystą, a nie wyszukiwania w bazie wiedzy.

Jeden z testujących lekarzy kardiologów opisał w mediach społecznościowych przypadek kliniczny: pacjent z STEMI i ostrą niewydolnością serca, konieczność potwierdzenia dawki tikagreloru w oparciu o eGFR 65. Zapytanie do Hydronium zwróciło wynik w 3 sekundy wraz z cytowalną referencją do wytycznych Chińskiego Towarzystwa Kardiologicznego z 2025 roku i wypisem z ChPL tikagreloru. Ten sam proces przy użyciu PubMed, wytycznych PDF i ulotki zajął wcześniej 15–20 minut.

Lekarz zalogował się 193 razy w ciągu 88 dni podczas zamkniętego testu beta przed oficjalną premierą.

Dlaczego to ważne?

Problem halucynacji w medycznym AI jest strukturalnie głębszy niż w innych domenach. Błędy w kontencie marketingowym lub kodzie można łatwo wykryć i naprawić. W klinicznym kontekście błędna rekomendacja dotycząca dawki lub zapomniane przeciwwskazanie może narazić pacjenta na ryzyko. Do tej pory branżową odpowiedzią był RAG — ale jak pokazało badanie na medRxiv, RAG bez głębokiego zrozumienia struktury klinicznej dokumentu może pogorszyć sytuację o rząd wielkości.

Hydronium proponuje podejście warstwowe: zamiast naprawiać jeden problem, próbuje zamknąć pętlę od strukturyzacji dowodu, przez wyszukiwanie, po trening i walidację ekspercką. To odróżnia go od modeli ogólnych uzupełnionych wiedzą medyczną — i zbliża do systemu wspomagania decyzji klinicznych z natywnym interfejsem konwersacyjnym.

Kluczowe pytanie pozostaje otwarte: czy walidacja przez 300 lekarzy wystarczy do obsługi pełnego spektrum specjalizacji klinicznych i dynamicznie zmieniających się wytycznych? Skalowalność modelu eksperckiego będzie testem, który Hydronium musi przejść po wyjściu z wersji beta.

Co dalej?

Alibaba Health zapowiedziało dalsze rozszerzanie partnerstwa z BMJ oraz krajowymi stowarzyszeniami medycznymi — kolejne umowy na dostęp do wyłącznych treści naukowych planowane są na drugą połowę 2025 roku.
System jest dostępny do pobrania od 13 maja 2025; beta-testerzy ocenili go w zamkniętej grupie przed oficjalną premierą.
Architektura Experts-in-the-Loop wymaga ciągłej aktualizacji przez specjalistów — zdolność do skalowania tej warstwy przy rosnącej liczbie użytkowników zadecyduje o długoterminowej pozycji produktu.

Źródła

Royal College of Surgeons of England — Trust, truth and transparency: analysing the references underpinning AI-generated surgical information

medRxiv — Representation Before Retrieval: Structured Patient Artifacts Reduce Hallucination in Clinical AI Systems

Alibaba Health — oficjalna prezentacja produktu Hydronium, maj 2025