[Anne Kuijs] Vertaalmachines, autocorrect en T9 op je telefoon, spraakcomputers, voorleesapplicatie, spellingscontrole… De techniek staat voor niks tegenwoordig, maar voor het ontwikkelen van taalapplicaties heb je meer nodig dan alleen een computer!
De Universiteiten van Tilburg, Utrecht, Nijmegen, Twente, en in Vlaanderen Leuven en Gent bouwen met zijn allen aan een taalcorpus: een enorme taaldatabank met geschreven taal. Het is de bedoeling om 500 miljoen woorden aan tekst in verschillende teksttypes te verzamelen. Het vernieuwende aspect van dit project, genaamd SoNaR, zit hem in de aandacht voor taal uit nieuwe media. SoNaR verzamelt tekst uit weblogs, tweets, e-mails (spam en geen-spam), ondertiteling, discussiefora, autocues en zelfs SMS. Op 1 december wil SoNaR 50.000 SMSjes uit Vlaanderen en Nederland verzameld hebben!
Maar waar is dit nu goed voor? Taalcorpora bestaan al jaren, in verschillende talen, en aangelegd door verschillende instituten. Een corpus bevat tekst die door mensen is geschreven: natuurlijk geproduceerde tekst dus. Mensen zijn de meesters in het produceren van taal, en met behulp van bakken vol door-mensen-geproduceerde-taal kun je leuke dingen doen. Taal is een dankbaar studieobject: het is constant in beweging, en het Nederlands is overal net een beetje anders. Aan de hand van een taalcorpus kan sociolinguïstisch onderzoek worden gedaan. Zo kun je bekijken of er taalverschillen zijn tussen Noord en Zuid Nederlanders, maar ook of je pa anders SMS’t dan de tieners van tegenwoordig!
Afgezien van het nut voor de wetenschap hebben corpora ook een praktische functie. Aan de hand van taalcorpora kunnen we proberen computers taal te leren. Vertaalmachines zijn ook vaak corpus-gebaseerd, en wat dacht je van het verbeteren van het autocorrect op je smartphone? Met corpora kunnen voorleesapplicaties worden ontwikkeld die tekst voorlezen aan blinden, en betere spelling- en grammatica-controlehulpmiddelen gebouwd worden.
Een corpus is nooit af, en SoNaR is dan ook nog steeds op zoek naar tekst voor in het corpus. Wat voor tekst maakt eigenlijk niet uit: je e-mails en SMS maar ook blogs en werkstukken zijn meer dan welkom! Alle tekstmateriaal dat je wilt bijdragen kun je uploaden in de digitale dropbox van SoNaR, en als je SMS doneert maak je gelijk kans op een iPad2! Op de site staat uitgelegd hoe het werkt voor jouw mobiele telefoon.
Heb je een Android? Download dan gelijk de gratis app in de market!
Heb je een iPhone? Volg de instructies op deze site. Maak een backup van je SMS en doneer wat je wilt doneren aan SoNaR.
Wil je graag doneren maar lukt het je niet? Stuur een mail naar corpus.sonar@gmail.com!