Schurq

OpenAI lanceert HealthBench: realistische toetsing van AI in de gezondheidszorg

|
Leestijd 1.5 minuten
Door Lisanne Groot

Heb je je ooit afgevraagd hoe veilig het is als een AI-systeem medische adviezen geeft? Of hoe goed zo’n model echt presteert buiten een theoretische toets? OpenAI komt nu met een krachtig antwoord in de vorm van HealthBench, een nieuwe open-source benchmark die AI-modellen evalueert op basis van realistische medische situaties.

AI als medisch klankbord

Deze tool gaat verder dan de traditionele meerkeuzetoetsen. HealthBench simuleert gesprekken tussen gebruikers of artsen en AI. Die gesprekken zijn gebaseerd op echte zorgpraktijken, opgebouwd in samenwerking met 262 artsen uit 60 landen. Het systeem beoordeelt AI-reacties op veiligheid, nauwkeurigheid en gepastheid, aan de hand van rubrieken die zijn opgesteld door medische experts.

Impact op zorgorganisaties en AI-ontwikkeling

HealthBench biedt ontwikkelaars en zorginstellingen een meetlat om AI-systemen te toetsen op realistische taken. Dit is nodig. Veel eerdere benchmarks zijn namelijk beperkt tot theoretische examens, zoals MedQA of USMLE, waarmee huidige AI-modellen al bijna maximale scores behalen. Daardoor werd het lastig om verbetering of risico’s nog zichtbaar te maken.
Voor organisaties die AI inzetten voor bijvoorbeeld klinische besluitvorming of patiëntcommunicatie, is dit een kans om modellen op een betrouwbare manier te evalueren. Daarmee wordt voorkomen dat gebrekkige systemen worden uitgerold in risicovolle omgevingen zoals ziekenhuizen of dokterspraktijken.

Praktische toepassing en toekomstgericht testen

HealthBench bevat 5.000 medische dialogen die meerdere rondes en talen omvatten. Ze behandelen uiteenlopende thema’s zoals spoedgevallen, mondiale gezondheidsvraagstukken en situaties met onzekerheid. Elk thema heeft een eigen beoordelingssysteem. De toetsing gebeurt deels met AI, maar altijd volgens menselijke medische maatstaven.
De benchmark is bedoeld voor twee doelgroepen. Enerzijds voor onderzoekers, die gestimuleerd worden om modellen te bouwen die de mensheid écht dienen. Anderzijds voor zorginstellingen, die hiermee een objectieve tool krijgen om AI te beoordelen binnen hun eigen workflows en prioriteiten.

Deze ontwikkeling valt samen met bredere samenwerkingen van OpenAI in de zorg. Van gepersonaliseerde AI-tools voor kankerzorg (Color Health) tot de inzet van GPT-4 in administratieve zorgprocessen (Iodine Software) en de versnelling van klinisch onderzoek (Sanofi en Formation Bio).

Conclusie

Met HealthBench zet OpenAI een stap richting transparante en realistische evaluatie van medische AI. De benchmark legt de lat hoger door echte situaties centraal te stellen. Daarmee ontstaat ruimte voor verbetering, veiligheid en onderbouwd vertrouwen in AI binnen de zorg.

Bron: Fierce Healthcare

Deel dit artikel via
Lisanne Groot
Lisanne Groot

Over deze schurq

Lees ook