18.12.2010
Technology

Google is nog meer je professor!

By:

BlogTechnology
google-is-nog-meer-je-professor.jpg
google-is-nog-meer-je-professor.jpg

“Google is my professor” zingen de Black Eyed Peas in “Now Generation”. De zoekmachine wordt al langer gebruikt door studenten – en natuurlijk volwassenen – die hun kennis willen vergroten. Critici zeggen dat wat je op Internet vindt – via Google dus ondermeer – vaak ver af ligt van de “waarheid”. En ze hebben natuurlijk deels gelijk. Maar met diensten als Google Scholar en Google Books heeft het bedrijf de academische kennis alleen meer openbaar gemaakt. En nu is er Google Books Ngram Viewer…

DutchCowboys schreef al in 2006 over Google’s experimenten met N-gram modellen maar nu krijgen we een eerste concrete voorbeeld. Deze week maakte Google immers de officiële lancering bekend van z’n Google Books Ngram Viewer. Wie Google zijn Zeitgeist “cool” vond, zal dit misschien nog meer smaken.

Waar gaat het nou eigenlijk om?

Eerst heel even technisch! Het N-gram model komt uit de informatietheorie en wordt toegeschreven aan ene Claude Shannon. Het wordt ook gebruikt voor taalmodellen en -voorspellingen. Hoe groter het getal “n”, hoe meer woorden je als eenheid neemt en hoe groter de voorspelbaarheid van het volgende woord wordt. Niet mee? Niet erg, je leest er hier meer over als je wil.

Belangrijker is wat Google er nu mee doet. Je begrijpt dat Google een gigantische databank met woorden heeft. Door het gebruik van N-gram modellen kun je daar echt van alles mee doen tot en met het slimmer maken van zoekmachines, vertaalproducten en spraakherkenning.

Maar je kunt er ook bijvoorbeeld mee nagaan hoe vaak verschillende woordcombinaties zijn verschenen (en verdwenen) over de tijd heen als je weet wanneer de woorden voorkwamen.

De geschiedenis visualiseren met Google Books

Nu heb je natuurlijk veel databanken bij Google. Eén daarvan is Google Books. En wat hebben boeken? Precies: een publicatiedatum.

Dus kun je met de Google Books Ngram Viewer verschillende woorden en combinaties met elkaar vergelijken doorheen de geschiedenis. In dit geval begint die geschiedenis al heel vroeg, 1500 om precies te zijn (tot 2008). Zo vond ik bij het woordje ‘dictatorship’ boeken terug uit de zestiende eeuw. Het woordje ‘democracy’ zie je ook vanaf dan maar het komt vanaf de tweede helft van de achttiende eeuw erg veel voor. ‘Liberalism’ kwam vroeger voor dan ‘socialism’ maar vanaf de tweede helft van de negentiende eeuw kwam ‘socialism’ duidelijk meer aan bod terwijl het nu weer daalt (zie afbeelding).

Je bepaalt zelf de datum en woorden of woordcombinaties (probeer bijvoorbeeld eens customer loyalty en customer satisfaction).

Het resultaat van je zoekopdracht is, naast een grafiek ook een lijst met boeken per jaartal waar de woorden voorkomen (uiteraard zie je die in zoekresultaten als je er op klikt). Je kunt ook de ‘ruwe’, gebruikte, datasets opvragen.

Het klikt allemaal wat complex maar wie op een heel interessante manier op zoek wil gaan naar historische gebeurtenissen, trends, evoluties etc. kan hier echt heel veel mee doen. Je creativiteit is de grens.

Ik kijk uit naar een vervolg (alle boeken uit Google Books zitten er nog niet in) en naar andere dergelijke diensten die Google ons ongetwijfeld zal voorschotelen.

Wie wil spelen of geïnteresseerd is in de evolutie van verschillende politieke stromingen, commerciële trends, merken die al lang bestaan, Yeti’s, het monster van Lochness, cowboys en cowgirls, of gewoon de populariteit van voornamen, kan hier terecht.

Enige minpunt: Nederlands is er nog niet bij.

Share this post