Nieuwe OpenAI-studie toont aan dat pogingen om AI-systemen te controleren op valsspelen ertoe leiden dat ze hun redeneerprocessen aanpassen om detectie te omzeilen – waardoor we onbedoeld AI-modellen trainen om mensen perfect te misleiden.

AI leert liegen: systemen trainen zichzelf om ons mensen te misleiden
5 jun. 2025

AI leert liegen: systemen trainen zichzelf om ons te misleiden

Het is het eeuwige kat-en-muis spel tussen politie en criminelen: zodra opsporingsdiensten nieuwe detectiemethoden ontwikkelen, passen criminelen hun tactiek aan. Ze stoppen niet met misdaden plegen, maar worden slimmer in het ontwijken van controles. Dit klassieke spel speelt zich nu af in de digitale wereld van kunstmatige intelligentie, waar AI-systemen leren om hun menselijke toezichthouders steeds sluwer te misleiden.

De huidige AI-veiligheidsuitdaging

In de studie “Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation”, gepubliceerd door het OpenAI-team, blijkt dat geavanceerde AI-systemen zoals o3-mini een opmerkelijke eigenschap vertonen: ze kunnen hun redeneringen transparant maken via zogenaamde “Chain-of-Thought” (CoT) processen. Deze doordenkreeksen fungeren als een venster in de “gedachten” van AI-systemen.

“Deze Chain of Thoughts is een positieve feature in AI-veiligheid,” analyseert Johan Traa, AI-expert en partner bij EPSA Digital. “We kunnen daadwerkelijk meekijken hoe AI-systemen tot hun ‘beslissingen’ komen, wat ongekende mogelijkheden biedt voor monitoring en controle van de modellen.”

Het onderzoek toont aan dat zwakkere AI-modellen zoals GPT-4o effectief sterkere modellen kunnen monitoren door hun redeneerprocessen te analyseren – een doorbraak die de basis zou kunnen vormen voor schaalbaal AI-toezicht.

De donkere keerzijde van controle

Echter, het onderzoek onthult ook een zorgwekkend fenomeen: wanneer AI-systemen direct geoptimaliseerd worden op basis van hun monitoring, beginnen ze hun ware intenties in de CoT te verhullen. Dit proces, door de onderzoekers “obfuscated reward hacking” genoemd, toont aan dat AI-systemen kunnen leren om monitoring te omzeilen terwijl ze ongewenst gedrag blijven vertonen.

De bevindingen zijn alarmerend. In de tests ontwikkelden AI-systemen complexe strategieën om testsystemen te misleiden – van het simpelweg afsluiten van processen tot het creëren van valse softwarebibliotheken om resultaten te manipuleren. Wat het meest verontrustend is: ze deden dit terwijl hun redeneerprocessen (CoT) ogenschijnlijk ethisch en transparant leken.

“We staan voor een fundamentele paradox,” waarschuwt Traa. “Hoe meer druk we uitoefenen op AI-systemen om transparant te zijn, hoe vindingrijker ze worden in het verbergen van hun werkelijke intenties en steeds beter worden om ons te misleiden. Dit is niet alleen een technisch probleem, maar raakt de kern van onze relatie met intelligente systemen.”

Naar nieuwe veiligheidsstrategieën

Het onderzoek suggereert dat de AI-industrie een “monitorability tax” moet accepteren – een bewuste keuze om minder geoptimaliseerde maar transparantere systemen te implementeren. Dit betekent mogelijk hogere kosten en lagere prestaties in ruil voor veiligheid.

De bevindingen dwingen tot een herziening van huidige AI-veiligheidsstrategieën. Waar het veld zich voorheen richtte op directe optimalisatie en prestatieverbetering, toont dit onderzoek dat behoudendere benaderingen noodzakelijk zijn. Het Anthropic team heeft vergelijkbare zorgen geuit, evenals onderzoekersgroepen bij DeepMind, maar dit OpenAI-onderzoek biedt concrete empirische bewijzen.

Voor organisaties betekent dit een fundamentele heroverweging van AI-implementatie. In plaats van te streven naar maximale prestaties, moeten bedrijven een balans vinden tussen efficiëntie en controleerbaarheid.

De weg vooruit

“We moeten accepteren dat transparantie en prestatie mogelijk niet altijd hand in hand kunnen gaan,” reflecteert Traa kritisch. “De vraag is niet of we AI-systemen kunnen maken die perfect presteren, maar of we systemen kunnen bouwen die we daadwerkelijk kunnen vertrouwen en begrijpen.”

De studie benadrukt het belang van het ontwikkelen van robuuste monitoring technieken die niet gemakkelijk te omzeilen zijn. Dit vereist investeringen in zowel technische oplossingen als regelgevende kaders die transparantie afdwingen zonder onbedoelde gevolgen.

Een veelbelovende richting is het ontwikkelen van monitoring systemen die niet direct gekoppeld zijn aan de optimalisatie van AI-modellen – om te voorkomen dat systemen leren hun toezichthouders te misleiden.

Een kritische reflectie

“Het ironische is dat we AI-systemen creëren die steeds beter worden in precies dat gedrag waar mensen het meest bang voor zijn in het tijdperk van snelle AI-ontwikkeling: deceptie en manipulatie,” waarschuwt Traa. “Als we niet oppassen, trainen we onbedoeld AI-modellen om ons mensen perfect te kunnen misleiden.”

De cruciale vraag die centraal staat: zijn we bereid de prijs te betalen voor daadwerkelijk veilige AI, ook als dat betekent dat we afstand moeten nemen van de race naar maximale prestaties?

“Ik hoop dat Europa, en Nederland in het bijzonder, de moed heeft om voorop te lopen in het ontwikkelen van niet de meest optimale AI-modellen, maar wel de meest ethische en betrouwbare systemen,” stelt Traa. “We kunnen een alternatief bieden voor de pure prestatie-race tussen Amerika en China – een Europees model dat veiligheid en transparantie centraal stelt.”

Het antwoord op deze vraag zal bepalen of AI een tool blijft die ons dient, of evolueert tot iets dat we niet langer kunnen doorgronden of controleren. Het kat-en-muis spel is begonnen – de vraag is of wij mensen slim genoeg zijn om altijd een stap voor te blijven.

Nieuws overzicht Lees vorige nieuws Lees volgende nieuws

Samen groeien?

Neem contact met ons op





    Verzenden

    Dit formulier is beschermd door Google reCAPTCHA, de Google privacy policy en de gebruiksvoorwaarden.