L’apprentissage automatique améliore les capacités de transcription de la parole arabe

Grâce aux progrès de la parole et du traitement du langage naturel, on espère qu’un jour vous pourrez demander à votre assistant virtuel quels sont les meilleurs ingrédients de salade. Actuellement, il est possible de demander à votre gadget domestique de jouer de la musique ou d’ouvrir sur commande vocale, une fonctionnalité déjà présente dans de nombreux appareils.

Si vous parlez marocain, algérien, égyptien, soudanais ou l’un des autres dialectes de la langue arabe, qui sont extrêmement variés d’une région à l’autre, où certains d’entre eux sont mutuellement inintelligibles, c’est une autre histoire. Si votre langue maternelle est l’arabe, le finnois, le mongol, le navajo ou toute autre langue avec un niveau élevé de complexité morphologique, vous pouvez vous sentir exclu.

Ces constructions complexes ont intrigué Ahmed Ali pour trouver une solution. Il est ingénieur principal au sein du groupe des technologies de la langue arabe au Qatar Computing Research Institute (QCRI), qui fait partie de l’Université Hamad Bin Khalifa de la Qatar Foundation et fondateur d’ArabicSpeech, une « communauté qui existe au profit de la science de la parole arabe et des technologies de la parole. . « 

Siège de la Fondation du Qatar

Ali a été captivé par l’idée de parler aux voitures, aux appareils électroménagers et aux gadgets il y a de nombreuses années alors qu’il travaillait chez IBM. « Pouvons-nous construire une machine capable de comprendre différents dialectes : un pédiatre égyptien pour automatiser une ordonnance, un enseignant syrien pour aider les enfants à comprendre les éléments essentiels de leur cours ou un chef marocain décrivant la meilleure recette de couscous ? » il déclare. Cependant, les algorithmes qui alimentent ces machines ne peuvent pas passer au crible les quelque 30 variétés d’arabe, et encore moins leur donner un sens. Aujourd’hui, la plupart des outils de reconnaissance vocale ne fonctionnent qu’en anglais et dans quelques autres langues.

La pandémie de coronavirus a encore alimenté une dépendance déjà croissante aux technologies vocales, où la façon dont les technologies de traitement du langage naturel ont aidé les gens à se conformer aux directives de séjour à domicile et aux mesures de distanciation physique. Cependant, alors que nous utilisons des commandes vocales pour faciliter les achats en ligne et gérer nos ménages, l’avenir nous réserve encore plus d’applications.

Des millions de personnes dans le monde utilisent des cours en ligne ouverts et massifs (MOOC) pour son accès ouvert et sa participation illimitée. La reconnaissance vocale est l’une des principales fonctionnalités du MOOC, où les étudiants peuvent rechercher dans des domaines spécifiques dans le contenu parlé des cours et activer les traductions via les sous-titres. La technologie vocale permet de numériser les cours pour afficher les mots prononcés sous forme de texte dans les salles de classe universitaires.

Ahmed Ali, Université Hamad Bin Kahlifa

Selon un article récent du magazine Speech Technology, le marché de la reconnaissance vocale et vocale devrait atteindre 26,8 milliards de dollars d’ici 2025, alors que des millions de consommateurs et d’entreprises du monde entier comptent sur les robots vocaux non seulement pour interagir avec leurs appareils ou voitures, mais également pour améliorer le service client, stimuler les innovations en matière de soins de santé et améliorer l’accessibilité et l’inclusion pour les personnes ayant des troubles de l’audition, de la parole ou de la motricité.

Dans une enquête de 2019, Capgemini prévoyait que d’ici 2022, plus de deux consommateurs sur trois opteraient pour des assistants vocaux plutôt que pour des visites en magasins ou en agences bancaires ; une part qui pourrait à juste titre augmenter, étant donné la vie et le commerce à domicile et physiquement éloignés que l’épidémie a imposés au monde depuis plus d’un an et demi.

Néanmoins, ces appareils ne parviennent pas à fournir de vastes étendues du globe. Pour ces 30 types d’arabe et des millions de personnes, c’est une opportunité largement manquée.

Arabe pour les machines

Les bots vocaux anglophones ou francophones sont loin d’être parfaits. Pourtant, apprendre aux machines à comprendre l’arabe est particulièrement délicat pour plusieurs raisons. Voici trois défis communément reconnus :

  1. Manque de signes diacritiques. Les dialectes arabes sont vernaculaires, comme principalement parlés. La plupart du texte disponible n’est pas diacrité, ce qui signifie qu’il manque d’accents tels que l’aigu (´) ou le grave (`) qui indiquent les valeurs sonores des lettres. Par conséquent, il est difficile de déterminer où vont les voyelles.
  2. Manque de ressources. Il y a une pénurie de données étiquetées pour les différents dialectes arabes. Collectivement, ils manquent de règles orthographiques normalisées qui dictent comment écrire une langue, y compris les normes ou l’orthographe, la césure, les coupures de mots et l’emphase. Ces ressources sont cruciales pour former des modèles informatiques, et le fait qu’ils soient trop peu nombreux a entravé le développement de la reconnaissance de la parole arabe.
  3. Complexité morphologique. Les arabophones se livrent à de nombreux changements de code. Par exemple, dans les régions colonisées par les Français – Afrique du Nord, Maroc, Algérie et Tunisie – les dialectes comprennent de nombreux mots français empruntés. Par conséquent, il existe un nombre élevé de ce qu’on appelle des mots hors vocabulaire, que les technologies de reconnaissance vocale ne peuvent pas comprendre car ces mots ne sont pas arabes.

« Mais le champ évolue à une vitesse fulgurante », dit Ali. Il s’agit d’un effort de collaboration entre de nombreux chercheurs pour le faire avancer encore plus rapidement. Le laboratoire de technologie de la langue arabe d’Ali dirige le projet ArabicSpeech visant à rassembler les traductions arabes avec les dialectes natifs de chaque région. Par exemple, les dialectes arabes peuvent être divisés en quatre dialectes régionaux : nord-africain, égyptien, du Golfe et levantin. Cependant, étant donné que les dialectes ne respectent pas les frontières, cela peut aller jusqu’à un dialecte par ville ; par exemple, un locuteur natif égyptien peut différencier son dialecte alexandrin de son concitoyen d’Assouan (une distance de 1 000 kilomètres sur la carte).

Construire un avenir technophile pour tous

À ce stade, les machines sont à peu près aussi précises que les transcripteurs humains, en grande partie grâce aux progrès des réseaux de neurones profonds, un sous-domaine de l’apprentissage automatique en intelligence artificielle qui s’appuie sur des algorithmes inspirés du fonctionnement biologique et fonctionnel du cerveau humain. Cependant, jusqu’à récemment, la reconnaissance vocale a été un peu piratée. La technologie a une histoire de s’appuyer sur différents modules pour la modélisation acoustique, la construction de lexiques de prononciation et la modélisation du langage ; tous les modules qui doivent être formés séparément. Plus récemment, les chercheurs ont formé des modèles qui convertissent les caractéristiques acoustiques directement en transcriptions de texte, optimisant potentiellement toutes les parties pour la tâche finale.

Même avec ces avancées, Ali ne peut toujours pas donner de commande vocale à la plupart des appareils dans son arabe natif. « Nous sommes en 2021 et je ne peux toujours pas parler à beaucoup de machines dans mon dialecte », commente-t-il. « Je veux dire, maintenant j’ai un appareil qui peut comprendre mon anglais, mais la reconnaissance automatique de la parole arabe multi-dialecte n’a pas encore eu lieu. »

Faire en sorte que cela se produise est l’objectif du travail d’Ali, qui a abouti au premier transformateur pour la reconnaissance de la parole arabe et ses dialectes ; celui qui a atteint des performances inégalées jusqu’à présent. Baptisée QCRI Advanced Transcription System, la technologie est actuellement utilisée par les diffuseurs Al-Jazeera, DW et BBC pour transcrire du contenu en ligne.

Il y a plusieurs raisons pour lesquelles Ali et son équipe ont réussi à créer ces moteurs vocaux en ce moment. Principalement, dit-il, « Il est nécessaire d’avoir des ressources dans tous les dialectes. Nous devons développer les ressources pour pouvoir ensuite former le modèle. » Les progrès du traitement informatique signifient que l’apprentissage machine intensif en calcul se produit désormais sur une unité de traitement graphique, qui peut rapidement traiter et afficher des graphiques complexes. Comme le dit Ali : « Nous avons une excellente architecture, de bons modules et nous avons des données qui représentent la réalité. »

Des chercheurs de QCRI et de Kanari AI ont récemment construit des modèles capables d’atteindre la parité humaine dans les actualités diffusées en arabe. Le système démontre l’impact du sous-titrage des rapports quotidiens d’Aljazeera. Alors que le taux d’erreur humaine (HER) en anglais est d’environ 5,6%, la recherche a révélé que le HER arabe est significativement plus élevé et peut atteindre 10% en raison de la complexité morphologique de la langue et du manque de règles orthographiques standard en arabe dialectal. Grâce aux progrès récents de l’apprentissage en profondeur et de l’architecture de bout en bout, le moteur de reconnaissance vocale arabe parvient à surpasser les locuteurs natifs dans les actualités diffusées.

Alors que la reconnaissance vocale de l’arabe standard moderne semble bien fonctionner, les chercheurs de QCRI et de Kanari AI se consacrent à tester les limites du traitement dialectal et à obtenir d’excellents résultats. Étant donné que personne ne parle l’arabe standard moderne à la maison, l’attention au dialecte est ce dont nous avons besoin pour permettre à nos assistants vocaux de nous comprendre.

Ce contenu a été rédigé par l’Institut de recherche informatique du Qatar, Université Hamad Bin Khalifa, membre de la Fondation du Qatar. Il n’a pas été écrit par l’équipe éditoriale du MIT Technology Review.