Ant Health и екипът на академик Уанг Джун в Пекинския университет си сътрудничат Ant Health, заедно с екипа, ръководен от академик Уанг Джун от Народната болница на Пекинския университет, съвместно разкриха GAPS (Grounding, Adequacy, Perturbation, Safety) – първата в света рамка за оценка, посветена на оценката на възможностите на големите езикови модели, базирани на доказателства при специфични заболявания. Наред с рамката, екипът пусна и придружаващия набор от данни за бенчмарк GAPS-NSCLC-preview.

Инициативата е насочена към дългогодишно ограничение в оценката на медицинския изкуствен интелект, което разчита в голяма степен на въпроси и отговори в стил „изпит“ и липсва систематична оценка на клиничната дълбочина, пълнота, надеждност и безопасност.

Първоначалният показател се фокусира върху недребноклетъчния рак на белия дроб (NSCLC) и включва 92 въпроса, обхващащи 1691 клинични точки за вземане на решения, подкрепени от напълно автоматизирана верига от инструменти за оценка. Чрез комбиниране на генериране на въпроси, закотвени с насоки, с мултиагентно сътрудничество, изследователският екип постигна автоматизация от край до край – от създаване на въпрос и дизайн на рубрика за оценяване до многоизмерна оценка. Всички свързани документи, набори от данни и подробности за рамката са публично публикувани.

GAPS разлага клиничната компетентност на четири ортогонални измерения: Основаване (G) – дълбочина на клиничните разсъждения отвъд фактическото припомняне Адекватност (A) – пълнота на отговора Смущение (P) – устойчивост при несигурност или противоречиви доказателства Безопасност (S) – придържане към граници на клинична безопасност, които не подлежат на обсъждане

Трябва да се отбележи, че измерението на безопасността въвежда строго правило за „нулева толерантност“: всяка катастрофална или вредна клинична препоръка води до автоматичен нулев общ резултат.

Проектът следваше ясно разделение на труда: клиничният екип на Wang Jun дефинира медицински стандарти, докато Ant Health се занимаваше с инженеринг и внедряване на системата, образувайки модел на сътрудничество „клиницист-задава стандарти, AI-позволява мащаб“. Резултатите са приложени към „AQ“ (Ant’s A-Fu). Използвайки GAPS, екипът оцени няколко водещи модела, включително GPT-5, Gemini 2.5 Pro и Claude Opus 4. Резултатите показват, че докато моделите се представят добре при припомняне на факти, тяхната производителност спада рязко при задачи от по-висок ред, изискващи разсъждения за несигурност и вземане на клинични решения.

Пускането на GAPS бележи критична промяна в оценката на медицинския изкуствен интелект – от оптимизиране за „резултати от тестове“ до оценка на истинската клинична компетентност.

Източник: QbitAi

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin