Er is heel veel werk gestoken in het zorgen dat AI-chatbots geen persoonlijke informatie geven of op een heel slechte manier kunnen worden ingezet. Echter is het onderzoekers gelukt om dat alles te omzeilen. Dit is hoe het zit, en hoe potentieel gevaarlijk dat kan zijn.
De mensen van Carnegie Mellon University hebben ontdekt dat als ze een bepaalde soort code aan een prompt toevoegen, er wel degelijk lelijke dingen kunnen worden gezegd door een aan AI-chatbot. Het probleem is dat dit niet alleen bij een AI-chatbot het geval is: dit is helaas bij allemaal een groot zwakte: “Er is geen manier die we kennen om dit te patchen,” zegt Zico Kolter, een universitair hoofddocent aan CMU. “We weten gewoon niet hoe we ze veilig kunnen maken.”
ChatGPT, Bard, Claude: ze zijn allemaal niet opgewassen tegen het open source-taalmodel dat de onderzoekers gebruikten. Door die code toe te voegen aan een prompt krijg je als het ware de sleutel om dieper in de chatbot te vragen en daardoor kun je hem dingen laten doen die niet oke zijn. Hoe kan ik een waterstofbom maken, hoe kan ik iemand voor altijd laten verdwijnen, hoe kan ik illegale drugs maken: normaliter krijg je daar geen serieus antwoord op, maar wel als je die code achter je prompt zet.
Wired schrijft dat de AI-chatbots wel op de hoogte zijn gesteld en wel wat hebben aangepast, maar helaas lukt het de onderzoekers nog steeds om hun zin te krijgen en de chatbots gevaarlijker te maken. De reactie van de chatbotmakers op het probleem is ook wat homogeen: Google en OpenAI zeggen allebei dat ze er continu aan werken om de bots te verbeteren. Ondertussen zorgen aanvallers dat ze de manier waarop de systemen gegevens oppikken om te leren worden beïnvloed zodat ze afwijkend gedrag gaan vertonen. Dat kan echter ver gaan: afbeeldingen kunnen worden aangepast waardoor AI die beelden verkeerd identificeren. Het doet denken aan een onderzoek uit 2018 waarin onderzoekers stickers op verkeersborden plakten om een zelfrijdende auto-systeem voor de gek te houden. Dat werkte erg goed en het lijkt erop dat er door de manier waarop AI-modellen werken ook geen mogelijkheid is om dat helemaal uit te bannen.
Een AI-bot die nu wordt gebruikt om vluchten te boeken, kan door dit soort code worden ingezet om potentieel gevaarlijke aanvallen uit te voeren. Het zou goed zijn als de beveiligingsagenten bij de verschillende chatbots de koppen bij elkaar staken en samenwerkten aan manieren om hun chatbots zo veel mogelijk dicht te timmeren, voor zover dat kan, uiteraard. Zorgen dat AI-chatbots niet in verkeerde handen kunnen komen, daar is het helaas al te laat voor, dus we zullen er harder aan moeten werken om de schade te beperken.