Facktualité

Un essaim de micros robotisés aide à extraire les voix d’une salle bondée de plusieurs haut-parleurs

Par

4 octobre 2023

L’un des défis persistants de la technologie audio consiste à distinguer les voix individuelles dans une pièce remplie de discussions. Dans les paramètres de réunion virtuelle, le modérateur peut simplement appuyer sur le bouton de sourdine pour se concentrer sur un seul intervenant. Cependant, lorsque plusieurs personnes font du bruit dans la même pièce, il n’existe pas de moyen simple d’isoler une voix souhaitée du reste. Mais que se passerait-il si nous « mutilions » ces autres bavards bruyants grâce à la technologie ?

Entrez dans l’équipe de recherche de l’Université de Washington, qui a développé une méthode révolutionnaire pour relever ce défi. Leur innovation ? Un haut-parleur intelligent équipé de microphones auto-déployants capables de cibler des modèles et des emplacements de parole individuels, grâce à des algorithmes intelligents.

« Essaims acoustiques » robotiques

Le système de microphones rappelle un essaim de Roombas de la taille d’une pinte, qui entrent en action en se déployant dans des zones spécifiques d’une pièce. Imaginez ceci : lors d’une réunion du conseil d’administration, au lieu de la configuration habituelle du microphone central, ces micros mobiles prendraient sa place, améliorant ainsi le contrôle de la dynamique audio de la salle. Cet « essaim acoustique » robotique peut non seulement différencier les voix et leurs emplacements précis dans une pièce, mais il accomplit cette tâche monumentale uniquement en se basant sur le son, éliminant ainsi le besoin de caméras ou de repères visuels. Les microphones, chacun d’environ un pouce de diamètre, sont conçus pour revenir à leur station de charge après utilisation, ce qui rend le système facilement transportable entre différents environnements.

Le prototype comprend sept robots miniatures, fonctionnant de manière autonome et synchronisée. Utilisant un son haute fréquence, un peu comme des chauves-souris, ces robots se déplacent autour des tables, évitant les chutes et se positionnant pour garantir une précision audio maximale. L’objectif est de maintenir une distance significative entre chaque unité robotique individuelle. Cet espacement augmente la capacité du système à couper le son et à créer efficacement des zones audio spécifiques. Le son d’un haut-parleur individuel atteindra chaque microphone à des moments différents. Ainsi, la plus grande distance entre les microphones facilite la triangulation de l’emplacement de cette personne et sa filtration du pack. Les haut-parleurs intelligents ordinaires disposent souvent de nombreux microphones, mais comme ils ne sont séparés que de quelques centimètres au maximum, ils ne peuvent généralement pas réaliser le même exploit.

« Si j’ai un microphone à un pied de moi et un autre à deux pieds, ma voix arrivera en premier au microphone qui se trouve à un pied. Si quelqu’un d’autre est plus proche du microphone situé à deux pieds de distance, sa voix y arrivera en premier », a expliqué le co-auteur de l’article, Tuochao Chen. « Nous avons développé des réseaux neuronaux qui utilisent ces signaux temporisés pour séparer ce que dit chaque personne et suivre sa position dans un espace. Ainsi, vous pouvez avoir quatre personnes ayant deux conversations, isoler n’importe laquelle des quatre voix et localiser chacune des voix dans une pièce », a déclaré Chen.

Testé dans des cuisines, des bureaux et des salons, le système est capable de différencier les voix situées à moins de 1,6 pied les unes des autres 90 % du temps, sans aucune information préalable sur le nombre d’intervenants présents dans la pièce. Actuellement, il faut environ 1,82 seconde pour traiter 3 secondes d’audio. Ce délai convient à la diffusion en direct, mais le temps de traitement supplémentaire le rend indésirable pour une utilisation lors d’appels en direct à ce stade.

Les robots sont capables de se déplacer de manière autonome autour d’un bureau. YouTube/École Paul G. Allen

La technologie promet d’avoir de grandes applications dans divers domaines. Une maison intelligente équipée d’un réseau de microphones bien réparti pourrait permettre des commandes vocales uniquement à partir d’individus se trouvant dans des « zones actives » désignées. Un téléviseur à commande vocale pourrait être configuré pour répondre uniquement aux instructions des personnes assises sur le canapé. Cela pourrait même permettre à un groupe de participer à une conférence virtuelle depuis un café bruyant sans que tout le monde ait besoin d’allumer un micro. C’est un cas limite, bien sûr, et vous aurez toujours besoin d’écouteurs, mais quelqu’un l’essayera probablement, n’est-ce pas ?

L’équipe espère développer davantage le concept avec des robots microphones plus performants qui peuvent se déplacer dans une pièce, pas seulement sur une table. L’équipe étudie également l’utilisation de robots pour émettre des sons afin de créer des zones « muettes » et « actives » dans le monde réel, ce qui permettrait aux personnes situées dans différentes parties de la même pièce d’entendre leur propre flux audio.

Bien que la technologie en soit encore à ses débuts, nous aimons plutôt l’idée. De nombreuses réunions d’entreprise pourraient être animées par quelques robots mignons qui se promènent, même si c’est apparemment dans le but de capturer un meilleur son.