Is ze niet aan het tikken, dan reist ze rond in de wondere wereld van entertainment of op een toffe plek in de echte wereld. Mario is de man van haar leven, Belle is haar beste vriendin en haar laptop is nooit ver weg.
We weten dat ChatGPT niet helemaal van zichzelf zo slim is: het moet zijn informatie ook ergens vandaan halen. Daar is maker OpenAI dan weer wat minder open over, maar dat wil niet zeggen dat het niet toch enigszins te achterhalen valt, zo blijkt uit informatie van de Washington Post.
Dataset van AI
Er wordt vaak gedacht dat chatbots denken als mensen, maar dat is niet helemaal waar. Ze kunnen vooral informatie verwerken en dingen nabootsen. Dat merk je ook aan ChatGPT, want als je iets aan hem vraagt, dan weet je dat hij het niet zelf bedenkt: hij haalt het uit allerlei bronnen op het internet. De krant heeft de dataset van Google C4 bestudeerd en kon daardoor inkijk krijgen in de ongeveer 15 miljoen websites die er werden gebruikt om de Engelstalige AI alleen al te helpen aan zijn informatie. Welke dataset OpenAI gebruikt is echter onbekend.
Eenderde van de websites van de dataset van C4 blijkt niet meer online te zijn, maar de overige 10 miljoen wel. Het zijn journalistieke websites, websites over software-ontwikkeling, de medische wereld, entertainment en contentcreatie. De grootste websites zijn patent.google.com, wikipedia.org (ja, echt) en scribd.com. Andere hooggerankte websites zijn onder andere een pagina over piraterij, World of Warcraft en burnouts.
Wikipedia en WordPress
Nu is dat nog niet eens tot daaraan toe: er staan meer dan 200 miljoen meldingen van websites binnen C4 waarin een copyright-symbool op de pagina staat. Oftewel; dat mag je niet kopiëren en dus ook niet voor een dataset gebruiken. Er zitten in de dataset ook heel veel persoonlijke blogs: maar liefst een half miljoen, waaronder WordPress-sites, Tumblr, Blogspot en Live Journal.
Er is ook een bloklijst bij Google, zodat er niet allemaal scheldwoorden doorheen komen en discriminatie zoveel mogelijk wordt geëlimineerd. Hetzelfde geldt voor pornografie en hakenkruizen. Dat is natuurlijk alleen de dataset van Google: andere bedrijven hebben weer andere regels. Die van OpenAI GPT-3, de ChatGPT-taal voor de huidige, was 40 keer zo groot en maakte ook onder andere gebruik van Wikipedia.
Open over AI
Mocht je het trouwens flauw vinden dat OpenAI hier verder niet zo open over is: veel bedrijven willen hun trainingsdata niet vrijgeven omdat het wil voorkomen dat persoonlijke data op straat komt te liggen, of uiteraard content die wordt gebruikt zonder dat hiervoor toestemming wordt gevraagd, iets wat veelal voorkomt.
Het zal nog lange tijd een vage wereld blijven, die van de datasets van AI-chatbots. Tenzij de overheid komt met wet- en regelgeving hieromtrent, wat op zich op de loer ligt nu steeds meer mensen (waaronder kunstenaars) rechtszaken aanspannen tegen het onrechtmatig gebruik van hun creaties voor het trainen van deze slimme hulpjes.
Verder lezen over ChatGPT
Technology20.11.2024
ClimateGPT: De volgende stap in klimaatonderzoek?
Online19.11.2024
Komt er een moment waarop AI niet meer kan verbeteren?
Online13.11.2024
Dit gebeurt er als je 24 uur alleen bent met AI-chatbots
Search01.11.2024
ChatGPT gaat strijd aan met Google: start eigen zoekmachine
Artificial Intelligence01.10.2024
OpenAI is van plan om ChatGPT steeds duurder te maken
Artificial Intelligence23.09.2024
iPhone-designer Jony Ive werkt met OpenAI aan nieuwe gadget
Artificial Intelligence13.09.2024
OpenAI lanceert zijn nieuwe software o1 die kan beredeneren
Artificial Intelligence04.09.2024
Oprah leidt een panel met belangrijke mensen in AI: de wereld is verbaasd
Verder lezen over Google
Artificial Intelligence30.10.2024
Een kwart van het programmeerwerk bij Google wordt gedaan door AI
Online17.10.2024
Google Flights laat je straks goedkopere vluchten vinden
Artificial Intelligence09.10.2024
AI wint nu ook nog de Nobelprijs: twee zelfs
Mobile08.10.2024
Epic krijgt gelijk: Google houdt Android te dicht
Mobile07.10.2024
Google komt met hulp voor als je telefoon wordt gestolen
Artificial Intelligence03.10.2024
Knoop straks in het Nederlands een gesprek aan met Gemini Live
Mobile01.10.2024
Epic klaagt Google en Samsung aan om alternatieve appwinkels
Search25.09.2024
Google introduceert een speelse doodle met popcorn
Verder lezen over Kunstmatige Intelligentie
Technology20.11.2024
ClimateGPT: De volgende stap in klimaatonderzoek?
Cybercrime20.11.2024
Wortell opent nieuw next-gen Cyber Defense Center
Mobile20.11.2024
Je Pokémon Go-data wordt nu gebruikt om AI te trainen
Online19.11.2024
Je kunt straks een andere taal spreken in Microsoft Teams
Online19.11.2024
Komt er een moment waarop AI niet meer kan verbeteren?
Online13.11.2024
Dit gebeurt er als je 24 uur alleen bent met AI-chatbots
Tech in Asia13.11.2024
Huawei Connect Paris: AI en de digitale, groene transformatie van Europa
Video13.11.2024
YouTube wordt een deejay en gaat muziek aan elkaar mixen
Verder lezen over Onderzoek
Cybercrime29.10.2024
25% van de Nederlandse bedrijven is niet goed voorbereid op cyberdreiging
Online28.10.2024
Hoe valt het ontstaan van eilandbogen of vulkaanbogen te verklaren?
Marketing01.10.2024
Online marketingcampagnes vooral effectief voor nieuwe klanten
Nieuws17.09.2024
Gecombineerde NIVEL- en CBS-gegevens COVID-19-pandemie zijn prima te verklaren!
Social Media04.09.2024
“Trap Er Niet Influencer” doet onderzoek naar effecten van social media
Nieuws21.08.2024
De stollingsgesteenten cyclus op aarde
Artificial Intelligence14.08.2024
Heeft AI-chatbot ChatGPT onze levens echt veranderd?
Nieuws12.08.2024