Henk is Internet Entrepreneur, founder van Dutchcowboys en daarnaast tech en travelblogger, fotograaf, visual storyteller en bovenal een digitale nomade. Je maakt Henk vooral blij met bijzondere auto's, verre reizen en coole gadgets. Zijn grootste passies zijn echter innovatie, creativiteit en duurzaamheid.
[Anne Kuijs] Vertaalmachines, autocorrect en T9 op je telefoon, spraakcomputers, voorleesapplicatie, spellingscontrole… De techniek staat voor niks tegenwoordig, maar voor het ontwikkelen van taalapplicaties heb je meer nodig dan alleen een computer!
De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met zijn allen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen. Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en zelfs SMS. Op 1 december wil SoNaR 50.000 SMSjes uit Vlaanderen en Nederland verzameld hebben!
Maar waar is dit nu goed voor? Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus. Mensen zijn de meesters in het produceren van taal, en met behulp van bakken vol door-mensen-geproduceerde-taal kun je leuke dingen doen. Taal is een dankbaar studieobject: het is constant in beweging, en het Nederlands is overal net een beetje anders. Aan de hand van een taalcorpus kan sociolinguïstisch onderzoek worden gedaan. Zo kun je bekijken of er taalverschillen zijn tussen Noord en Zuid Nederlanders, maar ook of je pa anders SMS’t dan de tieners van tegenwoordig!
Afgezien van het nut voor de wetenschap hebben corpora ook een praktische functie. Aan de hand van taalcorpora kunnen we proberen computers taal te leren. Vertaalmachines zijn ook vaak corpus-gebaseerd, en wat dacht je van het verbeteren van het autocorrect op je smartphone? Met corpora kunnen voorleesapplicaties worden ontwikkeld die tekst voorlezen aan blinden, en betere spelling- en grammatica-controlehulpmiddelen gebouwd worden.
Een corpus is nooit af, en SoNaR is dan ook nog steeds op zoek naar tekst voor in het corpus. Wat voor tekst maakt eigenlijk niet uit: je e-mails en SMS maar ook blogs en werkstukken zijn meer dan welkom! Alle tekstmateriaal dat je wilt bijdragen kun je uploaden in de digitale dropbox van SoNaR, en als je SMS doneert maak je gelijk kans op een iPad2! Op de site staat uitgelegd hoe het werkt voor jouw mobiele telefoon.
Heb je een Android? Download dan gelijk de gratis app in de market!
Heb je een iPhone? Volg de instructies op deze site. Maak een backup van je SMS en doneer wat je wilt doneren aan SoNaR.
Wil je graag doneren maar lukt het je niet? Stuur een mail naar corpus.sonar@gmail.com!
Verder lezen over SMS
Mobile15.11.2023
Wat is iMessage en waarom gebruiken we het niet zoveel?
Mobile12.04.2023
We bellen en sms’en weer veel minder
Voorraad 06-nummers nog steeds schaarsMarketing21.03.2023
Spotler Group neemt Wireless Services B.V. over
Omnichannel messagingdienst om conversational commerce, marketing en klantenservice te verbeterenMobile09.09.2022
Pech voor Google: de groene bolletjes van Apple iMessage blijven
‘Koop voor je moeder maar een iPhone’Mobile14.08.2022
Google maakt ruzie met Apple om berichten sturen
Mobile18.05.2022
Oude mobiel van Premier Rutte zorgt voor opschudding
Jarenlang SMS’jes gewist vanwege ‘te weinig opslagruimte'Mobile27.12.2021
We smsen en bellen wéér minder, maar data gaat door het dak
Technology07.06.2021