Online02.01.2015

‘Big Data’ bestaat niet. We are not that smart, yet


Vanaf het begin van de jaartelling tot 2000 is er 5 miljard GB aan data gecreëerd. Tien jaar later duurde de creatie van dezelfde hoeveelheid slechts 2 dagen. Inmiddels gebeurt dat elke 10 seconden. Binnenkort kunnen we verwachten dat dergelijke datacreatie elke seconde plaatsvindt. We lijken dus graag data te genereren, en zijn aan de andere kant hongerig om die te verzamelen, gebruiken en interpreteren.

Colossal Data

Heel veel data dus: kolossaal zelfs. Maar daarmee is het nog geen Big Data. Het is wel een basis om over Big Data na te denken, maar het is vooral een basis om business intelligence toe te passen, weliswaar op grotere schaal. Maar betekent meer data ook meer informatie, kennis en waardecreatie?

De afgelopen periode is er veel gezegd en geschreven over ‘slimmer’ gebruik van data van bankklanten verzameld door hun eigen bank, in het recente geval ING Bank. Ook daar wordt gesproken over Big Data, maar ook dat is niet terecht. Ook bij ING Bank ging het over niet meer dan business intelligence.

Buzzword versus feiten

Big Data is op dit moment duidelijk een buzzword en obsessie voor ondernemingen, overheden en media. Echter, echte Big Data bestaat nog niet. Alleen een enorme hoeveelheid data is daarvoor niet genoeg. De term Big Data wordt in de markt verkeerd gebruikt. Professor Mayer-Schönberger van het Oxford’s Internet Institute gebruikt graag de theoretische definitie ‘N=All’, waarbij er statistisch geen voorbeeld (N) meer nodig is want het uitgangspunt is iedereen (All).

Een paar voorbeelden:

De Godfather van Big Data, Google gebruikte Google Search zoektermen gerelateerd aan griep om zo te kunnen laten zien en voorspellen waar een griepepidemie is en hoe die zich ontwikkelt: de ‘Google Flu Trends’. Voor Big Data fans was dit hèt voorbeeld, want de trends waren tenslotte veel sneller en goedkoper dan de traditionele, reactieve cijfers over griepepidemieën. Echter, toen de officiële cijfers bekend werden bleek dat de cijfers van Google daarvan factor 2 afweken, en dus onbruikbaar en nutteloos. De voorspellende kracht bleek zelfs veel slechter dan de al bestaande, conventionele monitor systemen. Inmiddels is men gestopt met Google Flu Trends. Hetzelfde geldt voor de Google Denguetrends (knokkelkoorts).

Google heeft geprobeerd een van haar supercomputers in te zetten om 10 miljoen thumbnails van YouTube video’s te scannen om die te laten leren een kat in een video te identificeren. De accuratesse bleek 70%. Dat lijkt indrukwekkend totdat je je bedenkt dat een gemiddeld 2-jarig kind dat in 100% van de gevallen foutloos doet.

The Wereldgezondheidsorganisatie (WHO) heeft zeer geavanceerde digitale ‘big data analyse’ algoritmes waarmee zij probeert epidemieën te voorspellen en bij te houden. Daarbij mede gebruikmakend van internet en de data die daarin wordt gegeneerd, door analyse van zoekopdrachten of sociale media, is het niet gelukt om bijvoorbeeld de 2014 Ebola epidemie te voorspellen. Het blijkt eenvoudigweg te onbetrouwbaar, te weinig specifiek, en de data is pas beschikbaar in hindsight. Diverse gezondheidsorganisatie zijn dan ook gestopt met dergelijke voorspellende methodieken en technologie.

Big Data werkt zelfs bij de NSA (nog) niet; meer dan 90% van de sinds 9/11 (2001) verzamelde data is niet gebruikt, aldus Richard Clarke, voorzitter van President Obama’s Review Group on Intelligence and Communications Technology die de praktijken van NSA eind 2013 heeft gereviewed naar aanleiding van de Snowden onthullingen en waarvan de 64 aanbevelingen inmiddels grotendeels zijn overgenomen door President Obama, zoals in 2014 gemeld tijdens de NSS in Den Haag.

Kwantiteit + Causaliteit = Kwaliteit

De belangrijkste reden waarom Big Data (nog) niet werkt, is dat de beschikbare data (‘Found Data’) wordt verwerkt met traditionele statistiekmethoden op basis van correlatie: een bepaalde hoeveelheid zoektermen gekoppeld aan een geolocatie.

Wat er mist is causaliteit en connectie. De huidige ‘Big Data’ is vooral nog domme data. Welk verband is er tussen de reden of oorzaak waarom iemand de zoekterm invoerde, en die gebruiker zelf? Als je niet weet wat er achter de correlatie zit, heb je geen idee waar je naar kijkt en wat de oorzaak is van die correlatie.

Een reden bij data over griep (Google Flu Trends) kan zijn geweest dat er in die tijd diverse voorpagina artikelen waren over dodelijke griepvirussen. Hetzelfde geldt voor data over Ebola (WHO). Statistiek houdt geen rekening met het daadwerkelijke causaal verband. Het goed doorgronden van de achtergronden is al lastig gebleken sinds mensenheugenis. Er serieuze trends daadwerkelijk mee voorspellen is een brug te ver. De huidige verwachtingen zijn dat dit op korte termijn ook niet mogelijk is.

Een ander punt is dat de data van ‘All’ niet daadwerkelijk iedereen betreft. Trending topics op Twitter en andere sociale media zijn weliswaar veel besproken onderwerpen, maar de hoeveelheid actieve gebruikers is relatief klein om van ‘iedereen’ te spreken. Het is verder slechts een beperkt en niet bepaald representatief deel van de demografie, zowel lokaal als internationaal. Daarmee kan de uitkomst er van, net als in een peiling, stevig afwijken, en zelfs niet in de buurt komen van de werkelijkheid.

Kwantiteit zorgt dus ook bij Big Data niet voor kwaliteit. We zullen het voorlopig moeten doen met de al decennia bestaande mogelijkheden van business intelligence en Found Data, en de term Big Data nog even op de plank laten liggen. En daar is niets mis mee.

Jeroen de Hooge

Jeroen is al meer dan 15 jaar betrokken bij Dutchcowboys. Voornamelijk als digital content creator. En dan voor alle titels van The Blogidea Factory. Liefhebber van advertising, entertainment, tech, gadgets, en eigenlijk alles online.

...

Verder lezen over Big Data

Air France-KLM legt fundament voor AI met sterk metadatamanagement

Metadatamanagement is de sleutel tot het ontsluiten van de waarde van data. Air France-KLM bouwde met behulp van het Data Intelligence Platform van SAP-partner Collibra een ‘data catalog’. Hiermee kunnen gebruikers snel achterhalen welke data beschikbaar zijn, waar deze te vinden zijn en wie verantwoordelijk is voor de kwaliteit.

Technology28.10.2024

Air France-KLM legt fundament voor AI met sterk metadatamanagement

Last van datacenters? Dan bouwen we ze gewoon in zee

Er is veel spanning als het om datacenters gaat. Is het in de zee laten zakken van de cloud een optie?

Technology12.09.2024

Last van datacenters? Dan bouwen we ze gewoon in zee

Provincie Noord-Brabant migreert SAP S/4HANA naar de cloud

Als een van de eerste overheidsorganisaties heeft de provincie Noord-Brabant SAP S/4HANA naar de cloud gemigreerd met behulp van RISE with SAP en SAP-partner Ctac. Deze stap maakt informatie nog sneller beschikbaar voor het uitvoeren van kerntaken, waardoor de provincie efficiënter en sneller antwoorden kan vinden op cruciale vragen.

Technology04.07.2024

Provincie Noord-Brabant migreert SAP S/4HANA naar de cloud

Informatie nog sneller beschikbaar
Zo denken Nederlandse datacenters energie te kunnen besparen

Vertegenwoordigers van de datacenters in Nederland hebben de koppen bij elkaar gestoken om energie te besparen.

Nieuws27.06.2024

Zo denken Nederlandse datacenters energie te kunnen besparen

Nieuwe versie van de Technologie Kieswijzer staat online

Het zal niemand ontgaan dat we met zijn allen opnieuw naar de stembus moeten gaan. De vervroegde Tweede Kamerverkiezing vindt plaats op 22 november 2023. De laatste Tweede Kamerverkiezing vond plaats op 17 maart 2021. To...

Technology25.10.2023

Nieuwe versie van de Technologie Kieswijzer staat online

KNMI moderniseert datastrategie met AWS

Het KNMI heeft een nieuwe, moderne datastrategie geïmplementeerd met behulp van Amazon Web Services (AWS). Daarmee past het meteorologische instituut de mindset en processen van een datagedreven organisatie toe. Behalve...

Technology11.05.2023

KNMI moderniseert datastrategie met AWS

Voor betere detectie en classificatie van seismische activiteit
Wikidata bereikt grens van 100 miljoen data items

Wikipedia kennen we allemaal. Wikidata is wat minder bekend. Dit 'zusje' van Wikipedia heeft afgelopen week de mijlpaal van 100 miljoen items bereikt. Tien jaar geleden begon Wikidata als centrale opslagplaats voor gest...

Online21.10.2022

Wikidata bereikt grens van 100 miljoen data items

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten

De Big Data Expo is helaas afgelopen, maar je kunt nu alvast 13 en 14 september 2023 in je agenda noteren. Dan vindt in de Jaarbeurs namelijk de Big Data Expo 2023 plaats. Nieuwsgierig wat je daar zoal kunt verwachten? D...

Marketing20.09.2022

8 tweets om de Big Data Expo van 2023 vast in je agenda te zetten