Schurq

AI Chatbots en hallucinaties: ChatGPT aan Top, Google’s Palm-Chat moet bijsturen

|
Leestijd 1 minuten
Door Guido Sombroek

Het vermogen van AI chatbots om feitelijke informatie correct weer te geven is cruciaal, vooral in sectoren zoals gezondheid, industrie en defensie. Vectara heeft een project gelanceerd om de kwaliteit van diverse AI chatbots te beoordelen op hun neiging tot ‘hallucineren’, oftewel het verzinnen van feiten. Deze beoordeling is van groot belang voor het betrouwbaar gebruik van deze technologieën.

Bij het testen van elf openbare chatbots, waaronder GPT-4 en Google’s Palm-Chat, werden meer dan 800 documenten geanalyseerd. De chatbots moesten deze documenten samenvatten zonder extra, niet-bestaande informatie toe te voegen. De resultaten tonen aan dat GPT-4 het best presteerde met de laagste hallucinatiegraad en de hoogste nauwkeurigheid. Google’s Palm-Chat daarentegen had een hallucinatiegraad van meer dan 27%, wat wijst op onbetrouwbaarheid in de samenvattingen.

Deze bevindingen zijn niet alleen relevant voor de technische gemeenschap, maar ook voor bedrijven die overwegen AI-technologieën te gebruiken voor niet-creatieve doeleinden. De resultaten kunnen dienen als een nuttige benchmark voor iedereen die op zoek is naar betrouwbare AI-oplossingen.

Vectara’s hallucinatie evaluatie model voor het detecteren van hallucinaties is ontwikkeld vanwege de schaal van de tests en de behoefte aan consistente beoordeling. Hoewel het bouwen van een model voor het detecteren van hallucinaties eenvoudiger is dan het creëren van een model zonder hallucinaties, is de huidige ranglijst al een discussie op sociale media.

De ranglijst zal periodiek worden bijgewerkt om de ontwikkeling van bestaande LLM’s en de introductie van nieuwe te volgen. Ondertussen kijkt men uit naar de evaluatie van Elon Musk’s recent aangekondigde chatbot Grok, die beschreven wordt als humoristisch en sarcastisch. Dit kan interessant zijn voor bedrijven die op zoek zijn naar AI-oplossingen met een creatieve inslag.

Deel dit artikel via
Guido Sombroek
Guido Sombroek

Over deze schurq

Lees ook