AI-chatbots kunnen ons helpen met enorm veel zaken, maar ze hebben ook zo hun zwakke plekken. Denk aan bijvoorbeeld de hoeveelheid tekst die ze kunnen verwerken. Ook al kunnen ze leren van gigantische hoeveelheden aan data: geef ze een tekst met teveel woorden en je merkt dat een AI-chatbot moeite heeft.
ChatGPT kon twee jaar geleden zo’n 6.000 woorden aan tekst aan. Gaf je hem meer, dan vergat hij bepaalde informatie uit het begin van de test. Inmiddels is dat aanzienlijk verhoogd: het is nu 80.000 tot 100.000 woorden. Claude van Anthropic kan zelfs nog veel meer aan.
Om dieper te duiken in waarom er ook een limiet is binnen een AI-chatbot, moet je eerst weten hoe een AI-chatbot werkt. Kijken we naar een op een large language model gebaseerd systeem, dan wordt er gebruikgemaakt van retrieval-augmented generation (RAG). Hierbij zoekt het systeem naar documenten die passen bij wat je zoekt, waarna de meest relevante documenten worden gedeeld. Echter levert dit alleen een goed resultaat op als er goede documenten voorhanden zijn.
Dat op zich is niet nieuw: we weten dat de output nu eenmaal alles te maken heeft met de input. In dit geval is er echter nog een tweede uitdaging die erbij komt kijken. Stel dat AI alle documenten ooit tot zijn beschikking zou hebben: als je als gebruiker je vraag te verwarrend maakt, dan is de kans groot dat het systeem eigenlijk niet goed kan werken en er verkeerde documenten worden gebruikt.
Maar hoe kan dat nou, als LLM’s op zoveel data worden getraind? Waarom is het op een gegeven moment teveel? Dat heeft er onder andere mee te maken dat er ook context mist voor LLM’s: juist veel belangrijke informatie is vertrouwelijk of afhankelijk van tijd, wat het niet zo geschikt maakt voor training. Eigenlijk zou je kunnen stellen dat op heel belangrijke punten AI niet goed genoeg is getraind. Bovendien kunnen mensen iets wat LLM’s tot nu toe weinig doen: nadenken over eerdere data. Het verwerkt vooral data, het is er verder mogelijk onvoldoende mee bezig. Wij mensen doen dat wel: we denken aan eerdere dingen die we hebben geleerd, we leggen verbanden, enzovoort.
Dit wordt wel al beter, namelijk door het zogeheten ‘aandachtsmechanisme’ te gebruiken waarbij een LLM bij nieuwe informatie een soort check terug doet op oudere informatie. Door dit systeem, ook bekend als transformator, kon de volledige verwerkingskracht van een GPU worden gebruikt en konden LLM’s aanzienlijk groeien. Echter, dat aandachtsmechanisme vraagt meer rekenkracht en dat wordt soms te veel. Een prompt met 10 tokens zou 414.720 aandachtsbewerkingen vergen, bij 10.000 tokens is dat 460 miljard. Dit is waarom tokens ook duur zijn in aanschaf: ze betekenen ook echt iets voor ‘het systeem’.
Er wordt nu gezocht naar een manier om dat aandachtsmechanisme te verbeteren. Transformers hebben als voordeel dat ze informatie goed kunnen oproepen omdat ze de context van elk token onthouden, maar zodra die context groter en groter wordt, beginnen ze te stikken. Je vergeet door het gemak van AI-chatbots soms hoeveel erg eigenlijk in de achtergrond gebeurt: reden om daar wat vaker bij stil te staan als je weer met een query komt, en goed te bedenken hoe je de AI -en uiteindelijk ook jezelf- het beste kunt helpen om snel met een goed antwoord te komen.