Ce bébé équipé d’une caméra frontale a aidé à enseigner à une IA comment les enfants apprennent le langage

Pour cette expérience, les chercheurs se sont appuyés sur 61 heures de vidéo provenant d’une caméra casque portée par un enfant vivant près d’Adélaïde, en Australie. Cet enfant, Sam, a porté l’appareil photo de temps en temps pendant un an et demi, depuis l’âge de six mois jusqu’à un peu après son deuxième anniversaire. La caméra a capturé les choses que Sam regardait et auxquelles il prêtait attention pendant environ 1 % de ses heures d’éveil. Il a enregistré les deux chats de Sam, ses parents, son berceau et ses jouets, sa maison, ses repas et bien plus encore. «Cet ensemble de données était totalement unique», explique Lake. « C’est la meilleure fenêtre que nous ayons jamais eue sur ce à quoi un seul enfant a accès. »

Pour former le modèle, Lake et ses collègues ont utilisé 600 000 images vidéo associées aux phrases prononcées par les parents de Sam ou d’autres personnes présentes dans la pièce lors de la capture de l’image, soit 37 500 « énoncés » au total. Parfois, les mots et les objets correspondaient. Parfois non. Par exemple, dans une image, Sam regarde un trieur de formes et un parent dit : « Tu aimes la ficelle. » Dans une autre, une main adulte recouvre des blocs et un parent dit : « Toi aussi, tu veux les blocs. »

AVEC LA COURTOISIE DU PÈRE DE SAM

L’équipe a donné deux indices au modèle. Lorsque des objets et des mots se rencontrent, c’est le signe qu’ils peuvent être liés. Mais lorsqu’un objet et un mot n’apparaissent pas ensemble, c’est un signe qu’ils ne correspondent probablement pas. « Nous avons donc ce genre de rapprochement et de séparation qui se produit au sein du modèle », explique Wai Keen Vong, chercheur en sciences cognitives computationnelles à l’Université de New York et auteur de l’étude. « Ensuite, nous espérons qu’il y aura suffisamment d’exemples dans les données où, lorsque le parent prononce le mot ‘balle’, l’enfant voit une balle », dit-il.

Faire correspondre les mots aux objets qu’ils représentent peut sembler une tâche simple, mais ce n’est pas le cas. Pour vous donner une idée de l’ampleur du problème, imaginez le salon d’une famille avec de jeunes enfants. Il contient tous les meubles de salon normaux, mais aussi du désordre pour les enfants. Le sol est jonché de jouets. Des crayons sont éparpillés sur la table basse. Il y a un gobelet sur le rebord de la fenêtre et du linge sur une chaise. Si un tout-petit entend le mot « balle », cela pourrait faire référence à une balle. Mais cela peut aussi faire référence à n’importe quel autre jouet, ou au canapé, ou à un pantalon, ou à la forme d’un objet, ou à sa couleur, ou à l’heure de la journée. « Il existe un nombre infini de significations possibles pour n’importe quel mot », explique Lake.

Le problème est si insoluble que certains psychologues du développement ont soutenu que les enfants doivent naître avec une compréhension innée du fonctionnement du langage pour pouvoir l’apprendre aussi rapidement. Mais l’étude suggère que certaines parties du langage peuvent être apprises à partir d’un très petit ensemble d’expériences, même sans cette capacité innée, explique Jess Sullivan, psychologue du développement à l’Université Skidmore, qui faisait partie de l’équipe qui a collecté les données de la caméra du casque de Sam, mais qui n’a pas été impliquée. impliqués dans la nouvelle étude. « Pour moi, cela bouleverse vraiment ma vision du monde. »

Mais Sullivan souligne que la capacité à faire correspondre les mots aux objets qu’ils représentent, même s’il s’agit d’un problème d’apprentissage difficile, n’est qu’une partie de ce qui constitue le langage. Il existe également des règles qui régissent la façon dont les mots s’enchaînent. Votre chien connaît peut-être les mots « balle » ou « marche », mais cela ne signifie pas qu’il peut comprendre l’anglais. Et il se pourrait que la capacité innée des bébés en matière de langage aille au-delà du vocabulaire. Cela peut influencer la façon dont ils se déplacent dans le monde, ce à quoi ils prêtent attention ou comment ils réagissent au langage. «Je ne pense pas que l’étude aurait fonctionné si les bébés n’avaient pas créé l’ensemble de données à partir duquel le réseau neuronal apprenait», dit-elle.

bébé portant une caméra sur la tête assis sur une chaise haute

LAC BRENDEN

La prochaine étape pour Lake et ses collègues consiste à essayer de déterminer ce dont ils ont besoin pour que l’apprentissage du modèle reproduise plus fidèlement l’apprentissage précoce des langues chez les enfants. « Il y a encore du travail à faire pour essayer d’obtenir un modèle doté de capacités comparables à celles d’un enfant de deux ans », dit-il. Cela pourrait signifier fournir davantage de données. L’enfant de Lake, qui a maintenant 18 mois, fait partie de la prochaine cohorte d’enfants qui fourniront ces données. Elle porte une caméra casque quelques heures par semaine. Ou peut-être que le modèle doit prêter attention au regard des parents, ou avoir une certaine idée de la solidité des objets, quelque chose que les enfants saisissent intuitivement. Créer des modèles capables d’apprendre davantage comme les enfants aidera les chercheurs à mieux comprendre l’apprentissage et le développement humains.

Les modèles d’IA capables de reprendre certaines des façons dont les humains apprennent le langage pourraient être beaucoup plus efficaces dans l’apprentissage ; ils pourraient agir davantage comme des humains et moins comme « un moteur statistique fastidieux pour la correspondance de modèles », comme le linguiste Noam Chomsky et ses collègues ont décrit un jour de grands modèles de langage comme ChatGPT. « Les systèmes d’IA sont encore fragiles et manquent de bon sens », déclare Howard Shrobe, qui gère le programme de la Defense Advanced Research Projects Agency du gouvernement américain qui a aidé à financer l’équipe de Lake. Mais une IA capable d’apprendre comme un enfant pourrait être capable de comprendre le sens, de réagir à de nouvelles situations et d’apprendre de nouvelles expériences. L’objectif est de rapprocher l’IA de l’intelligence humaine.

François Zipponi
Je suis François Zipponi, éditorialiste pour le site 10-raisons.fr. J'ai commencé ma carrière de journaliste en 2004, et j'ai travaillé pour plusieurs médias français, dont le Monde et Libération. En 2016, j'ai rejoint 10-raisons.fr, un site innovant proposant des articles sous la forme « 10 raisons de... ». En tant qu'éditorialiste, je me suis engagé à fournir un contenu original et pertinent, abordant des sujets variés tels que la politique, l'économie, les sciences, l'histoire, etc. Je m'efforce de toujours traiter les sujets de façon objective et impartiale. Mes articles sont régulièrement partagés sur les réseaux sociaux et j'interviens dans des conférences et des tables rondes autour des thèmes abordés sur 10-raisons.fr.