13.04.2018
Technologie

Google heeft AI die een stem uit een menigte kan filteren

By: Patrick Smeets

BlogTechnologie

Jarenlange blootstelling aan veel te harde muziek heeft het mij bijna onmogelijk gemaakt: een stem isoleren in een groep of (nog erger) menigte mensen. Misschien dat ik in de toekomst echter geholpen kan worden door Google, want die zijn een ‘deep learning’ systeem ontwikkeld dat specifieke stemmen kan herkennen en uitfilteren, onder andere door naar de gezichten van mensen te kijken.

Het model is getraind om naar individuele mensen te kijken terwijl ze praten en op die manier het geluid te matchen met de persoon en het zo te isoleren in een apart audiospoor. Kijk naar de audio van de twee comedians hieronder die gewoon door elkaar aan het praten zijn en de AI kan er zonder probleem ééntje uitpikken en alleen dat geluid laten horen. Dat werkt zelfs als het gezicht van de persoon in kwestie gedeeltelijk wordt geblokkeerd door een microfoon of gebarende handen.

Looking to listen

Google zegt zelf de mogelijkheden aan het verkennen te zijn om deze technologie in hun producten te verwerken, maar het lijkt meer dan duidelijk waar dit handig voor is: Google Home. De slimme assistent van Google zou zo zelfs of een druk feestje kunnen verstaan dat je zegt dat het echt tijd wordt om A-Ha op Spotify te gaan afspelen, of om het volume zachter te zetten.

Maar ook in Google’s voicechat-apps zoals Hangouts of Duo zou zo’n functie heel handig zijn, want op die manier zou je als luisteraar kunnen focussen op een specifiek iemand. Als ze nog een stap verder gaan zou het er voor kunnen zorgen dat je met een Google Glass (variant) mensen kunt helpen die niet meer goed horen en zo een gefocust geluidsbeeld kunnen krijgen van degene met wie ze aan het praten zijn. Gooi er nog stemherkenning bij en dan kun je zelfs ondertiteling krijgen!

Bye bye privacy

Mogelijkheden genoeg dus, al zijn er logischerwijs wel behoorlijke privacy-problemen die kunnen voortvloeien uit een dergelijk systeem. Als iemand met deze technologie je stem uit een groep mensen kan filteren ben je dus zelfs in een drukke groep niet meer onhoorbaar voor een systeem dat krachtig genoeg is en voldoende microfoons en camera’s heeft. Alsof de massale surveillance niet al genoeg kan.

[Afbeeldingen © lms_lms – Adobe Stock]

Share this post