Schokkend onderzoek BBC: ‘AI-assistenten onbetrouwbaar!’

[AI & Marketing door Patrick Petersen]

Een eigen custom AI-chat, een gratis AI-assistent; het low-hanging fruit lijkt zo gemakkelijk te plukken in het gehypete AI-land. Alles is gratis, versneld en vergroot je business, en een deel van het personeel kan de WW in. Toch?

Tot je de processen en kwaliteit eens nader bekijkt. Want hoe betrouwbaar zijn die chats nu echt? Het was wachten op het eerste gedegen onderzoek door journalisten, die we voor het gemak even van de te ontslaan lijst halen.

BBC meest vertrouwde internationale nieuwsbron

De BBC is de meest gebruikte en vertrouwde nieuwsbron in het Verenigd Koninkrijk en de meest vertrouwde internationale nieuwsbron ter wereld. Ze nemen de tijd en de zorg om de nauwkeurigheid en onpartijdigheid van het nieuws te waarborgen. Om de nieuwsgerelateerde output van AI-assistenten beter te begrijpen, deed de BBC in februari 2025 onderzoek naar vier prominente, openbaar beschikbare AI-assistenten: OpenAI’s ChatGPT, Microsoft’s Copilot, Google’s Gemini en Perplexity.

Opvallend genoeg lanceerde Perplexity nog op Valentijnsdag 2025 een zogenaamd betrouwbaar verdiepend onderzoekstool, dat met een sector-eigen ondoorzichtige Humanity’s Last Exam-score nét iets beter scoort dan de AI-researchtoepassing van Google van eind 2024. Maar uitgerekend deze twee AI-toepassingen kwamen slecht uit de betrouwbaarheidstest. Het lijkt vooral een commerciële ratrace en een gevecht om de maandelijkse abonnementjes, want wie gratis met de AI-chats wil blijven werken, weet dat hij graaft in onvolledige en verouderde data.

 


De onderzoekers van de BBC motiveren: “We wilden weten of ze nauwkeurige antwoorden gaven op vragen over het nieuws en of hun antwoorden BBC-nieuwsverhalen die als bron werden gebruikt, getrouw weergaven. We gaven de AI-assistenten toegang tot onze website gedurende de onderzoeksperiode en stelden hen vragen over het nieuws, waarbij we hen aanspoorden BBC News-artikelen als bron te gebruiken waar mogelijk. De antwoorden van de AI werden beoordeeld door BBC-journalisten, allen experts op de vraag-onderwerpen, op criteria zoals nauwkeurigheid, onpartijdigheid en hoe ze BBC-content vertegenwoordigden.”

Aanzienlijke onnauwkeurigheden

De antwoorden die door AI-assistenten werden gegenereerd, bevatten aanzienlijke onnauwkeurigheden en verdraaiden de inhoud van de BBC. In het bijzonder:
⦁    51 procent van alle AI-antwoorden op vragen over het nieuws werd beoordeeld als problematisch in enige vorm.
⦁    19 procent van de AI-antwoorden die BBC-content aanhaalden, introduceerden feitelijke fouten, zoals onjuiste feitelijke uitspraken, getallen en data.
⦁    13 procent van de citaten uit BBC-artikelen waren ofwel aangepast ten opzichte van de oorspronkelijke bron of kwamen niet voor in het geciteerde artikel.
Deze inzichten zijn belangrijk, omdat het essentieel is dat het publiek erop kan vertrouwen dat nieuws accuraat is – of het nu via televisie, radio, digitale platforms of een AI-assistent wordt verkregen. Het is belangrijk, omdat een samenleving functioneert op basis van een gedeeld begrip van feiten, en onnauwkeurigheid en verdraaiing kunnen leiden tot echte schade.
Onjuistheden van AI-assistenten kunnen gemakkelijk worden versterkt wanneer ze op sociale netwerken worden gedeeld.
Dit is ook van belang omdat nieuwsuitgevers moeten kunnen waarborgen dat hun content met hun toestemming wordt gebruikt, op een manier die hun oorspronkelijke berichtgeving correct weergeeft. Uit eerder intern onderzoek blijkt bovendien dat wanneer AI-assistenten vertrouwde merken zoals de BBC als bron noemen, het publiek eerder geneigd is het antwoord te vertrouwen, zelfs als het onjuist is. En daar gaat het compleet mis wanneer genoemde AI-chats het ingevoerde BBC-nieuws verkeerd reproduceren.

Perplexity gaf een verkeerde datum op voor het overlijden van Michael Mosley 

Zo stelde Google's Gemini ten onrechte dat: “De NHS mensen aanraadt niet te beginnen met vapen en dat rokers die willen stoppen andere methoden moeten gebruiken.”
In werkelijkheid beveelt de NHS vapen wél aan als methode om te stoppen met roken.
Microsoft’s Copilot beweerde ten onrechte dat Gisèle Pelicot de misdaden tegen haar ontdekte toen ze last kreeg van black-outs en geheugenverlies. In werkelijkheid kwam zij hierachter toen de politie haar video's liet zien, die waren gevonden na inbeslagname van de elektronische apparaten van haar echtgenoot.
Perplexity gaf een verkeerde datum op voor het overlijden van Michael Mosley en citeerde een verklaring van de familie van Liam Payne onjuist na diens overlijden. OpenAI’s ChatGPT beweerde in december 2024 dat Ismail Haniyeh, die in juli 2024 in Iran werd vermoord, deel uitmaakte van de Hamas-leiding.
"Ons onderzoek kan slechts een fractie van het probleem blootleggen. De omvang en impact van de fouten en de verdraaiing van betrouwbare content zijn onbekend. Dit komt doordat AI-assistenten antwoorden kunnen geven op een zeer breed scala aan vragen en gebruikers verschillende antwoorden kunnen ontvangen op dezelfde of vergelijkbare vragen. Publiek, mediabedrijven en toezichthouders hebben geen volledig inzicht in de omvang van het probleem – en het is mogelijk dat AI-bedrijven dat zelf ook niet hebben."

Verstrekkende gevolgen

"De gevolgen van dit onderzoek zijn verstrekkend. AI-assistenten kunnen op dit moment niet worden vertrouwd als bron van accuraat nieuws en lopen het risico het publiek te misleiden. Hoewel AI-assistenten vaak een disclaimer opnemen over het risico op onjuistheden, bestaat er geen mechanisme waarmee AI-toepassingen fouten corrigeren. Dit in tegenstelling tot professionele nieuwsorganisaties, die incidentele fouten erkennen en rechtzetten. Waarschijnlijk worden ook andere uitgevers getroffen door de problemen die in dit onderzoek zijn geïdentificeerd.
Om ervoor te zorgen dat mensen betrouwbare informatie kunnen vinden in het AI-tijdperk, is samenwerking tussen de AI- en mediasector noodzakelijk. De BBC is bereid nauw samen te werken met anderen om dit te realiseren. Daarnaast plannen we een reeks AI-geletterdheidsactiviteiten om het publiek te helpen bij het gebruik van AI."

Patrick Petersen RDM MA MSc is s AI-expert gericht op businessautomatisering en ondernemer met zijn bureau AtMost(TV), auteur van meer dan twintig prijswinnende boeken over AI, marketing, online tech en maatschappelijke ontwikkelingen, zoals zijn www.handboek.ai. Bovenal is hij docent en spreker.

www.atmost.nl

 Volg Marketing Report op LinkedIn!

 Abonneer je op onze gratis dagelijkse nieuwsbrief

 Registreer jouw bureau gratis in de Marketing Report reclamebureau database The List

 

Lees ook:

Patrick Petersen: Wilt u een koopknop bij uw AI-prompt?

29-04-2025 | 10:56:04
Dus welkom in de AI-markt 2.0. Waar elk gesprek begint met advies… en eindigt met een affiliate-link.

Patrick Petersen: Zelf denken is zo 20e eeuw, groetjes AI

24-04-2025 | 11:26:39
Waarom zou je nog zelf je hersenen inschakelen, als je ook gewoon een vraag in een tekstvak kunt typen

AI: Van wetenschappelijke revolutie tot Muppet-manie

08-04-2025 | 11:34:00
Jaren van technologische vooruitgang—allemaal zodat we nu onze tijd kunnen besteden aan het genereren van plaatjes van Kermit de Kikker in Pixar-stijl

De klant wil bellen, geen gratis AI-chatbotje

01-04-2025 | 09:18:00
Dat u met data van zwakke kwaliteit en gratis AI-toepassingen meer kapot maakt dan u ooit nog kunt herstellen, moet nog ergens landen.

De nAIviteit van even wat AI-tools doorvoeren

24-03-2025 | 10:27:09
Wat wij in het soms wat dromerige Europese continent vergeten is dat andere delen van de wereld niet die bescherming hebben van persoonsgegevens
 

Gepubliceerd door: Laura Heerlien

Uitgelicht





Abonneer je op onze nieuwsbrief.