Un essaim de micros robotisés aide à extraire les voix d’une salle bondée de plusieurs haut-parleurs

L’un des défis persistants de la technologie audio consiste à distinguer les voix individuelles dans une pièce remplie de discussions. Dans les paramètres de réunion virtuelle, le modérateur peut simplement appuyer sur le bouton de sourdine pour se concentrer sur un seul intervenant. Cependant, lorsque plusieurs personnes font du bruit dans la même pièce, il n’existe pas de moyen simple d’isoler une voix souhaitée du reste. Mais que se passerait-il si nous « mutilions » ces autres bavards bruyants grâce à la technologie ?

Entrez dans l’équipe de recherche de l’Université de Washington, qui a développé une méthode révolutionnaire pour relever ce défi. Leur innovation ? Un haut-parleur intelligent équipé de microphones auto-déployants capables de cibler des modèles et des emplacements de parole individuels, grâce à des algorithmes intelligents.

« Essaims acoustiques » robotiques

Les appareils peuvent facilement isoler la parole provenant de différentes parties de la pièce.  YouTube/École Paul G. AllenLe système de microphones rappelle un essaim de Roombas de la taille d’une pinte, qui entrent en action en se déployant dans des zones spécifiques d’une pièce. Imaginez ceci : lors d’une réunion du conseil d’administration, au lieu de la configuration habituelle du microphone central, ces micros mobiles prendraient sa place, améliorant ainsi le contrôle de la dynamique audio de la salle. Cet « essaim acoustique » robotique peut non seulement différencier les voix et leurs emplacements précis dans une pièce, mais il accomplit cette tâche monumentale uniquement en se basant sur le son, éliminant ainsi le besoin de caméras ou de repères visuels. Les microphones, chacun d’environ un pouce de diamètre, sont conçus pour revenir à leur station de charge après utilisation, ce qui rend le système facilement transportable entre différents environnements.

Le prototype comprend sept robots miniatures, fonctionnant de manière autonome et synchronisée. Utilisant un son haute fréquence, un peu comme des chauves-souris, ces robots se déplacent autour des tables, évitant les chutes et se positionnant pour garantir une précision audio maximale. L’objectif est de maintenir une distance significative entre chaque unité robotique individuelle. Cet espacement augmente la capacité du système à couper le son et à créer efficacement des zones audio spécifiques. Le son d’un haut-parleur individuel atteindra chaque microphone à des moments différents. Ainsi, la plus grande distance entre les microphones facilite la triangulation de l’emplacement de cette personne et sa filtration du pack. Les haut-parleurs intelligents ordinaires disposent souvent de nombreux microphones, mais comme ils ne sont séparés que de quelques centimètres au maximum, ils ne peuvent généralement pas réaliser le même exploit.

« Si j’ai un microphone à un pied de moi et un autre à deux pieds, ma voix arrivera en premier au microphone qui se trouve à un pied. Si quelqu’un d’autre est plus proche du microphone situé à deux pieds de distance, sa voix y arrivera en premier », a expliqué le co-auteur de l’article, Tuochao Chen. « Nous avons développé des réseaux neuronaux qui utilisent ces signaux temporisés pour séparer ce que dit chaque personne et suivre sa position dans un espace. Ainsi, vous pouvez avoir quatre personnes ayant deux conversations, isoler n’importe laquelle des quatre voix et localiser chacune des voix dans une pièce », a déclaré Chen.

Testé dans des cuisines, des bureaux et des salons, le système est capable de différencier les voix situées à moins de 1,6 pied les unes des autres 90 % du temps, sans aucune information préalable sur le nombre d’intervenants présents dans la pièce. Actuellement, il faut environ 1,82 seconde pour traiter 3 secondes d’audio. Ce délai convient à la diffusion en direct, mais le temps de traitement supplémentaire le rend indésirable pour une utilisation lors d’appels en direct à ce stade.

Les robots sont capables de se déplacer de manière autonome autour d’un bureau. YouTube/École Paul G. Allen

La technologie promet d’avoir de grandes applications dans divers domaines. Une maison intelligente équipée d’un réseau de microphones bien réparti pourrait permettre des commandes vocales uniquement à partir d’individus se trouvant dans des « zones actives » désignées. Un téléviseur à commande vocale pourrait être configuré pour répondre uniquement aux instructions des personnes assises sur le canapé. Cela pourrait même permettre à un groupe de participer à une conférence virtuelle depuis un café bruyant sans que tout le monde ait besoin d’allumer un micro. C’est un cas limite, bien sûr, et vous aurez toujours besoin d’écouteurs, mais quelqu’un l’essayera probablement, n’est-ce pas ?

L’équipe espère développer davantage le concept avec des robots microphones plus performants qui peuvent se déplacer dans une pièce, pas seulement sur une table. L’équipe étudie également l’utilisation de robots pour émettre des sons afin de créer des zones « muettes » et « actives » dans le monde réel, ce qui permettrait aux personnes situées dans différentes parties de la même pièce d’entendre leur propre flux audio.

Bien que la technologie en soit encore à ses débuts, nous aimons plutôt l’idée. De nombreuses réunions d’entreprise pourraient être animées par quelques robots mignons qui se promènent, même si c’est apparemment dans le but de capturer un meilleur son.

François Zipponi
Je suis François Zipponi, éditorialiste pour le site 10-raisons.fr. J'ai commencé ma carrière de journaliste en 2004, et j'ai travaillé pour plusieurs médias français, dont le Monde et Libération. En 2016, j'ai rejoint 10-raisons.fr, un site innovant proposant des articles sous la forme « 10 raisons de... ». En tant qu'éditorialiste, je me suis engagé à fournir un contenu original et pertinent, abordant des sujets variés tels que la politique, l'économie, les sciences, l'histoire, etc. Je m'efforce de toujours traiter les sujets de façon objective et impartiale. Mes articles sont régulièrement partagés sur les réseaux sociaux et j'interviens dans des conférences et des tables rondes autour des thèmes abordés sur 10-raisons.fr.