L’apprentissage automatique nécessite généralement des tonnes d’exemples. Pour qu’un modèle IA reconnaisse un cheval, vous devez lui montrer des milliers d’images de chevaux. C’est ce qui rend la technologie coûteuse en calcul – et très différente de l’apprentissage humain. Un enfant a souvent besoin de voir seulement quelques exemples d’un objet, voire un seul, avant de pouvoir le reconnaître à vie.

En fait, les enfants n’ont parfois pas besoin tout exemples pour identifier quelque chose. Montré des photos d’un cheval et d’un rhinocéros, et dit qu’une licorne est quelque chose entre les deux, ils peuvent reconnaître la créature mythique dans un livre d’images la première fois qu’ils la voient.

Rhinocorn, un croisement entre un rhinocéros et une licorne
Hmm … ok, pas tout à fait.

MS TECH / PIXABAY

Maintenant, un nouvel article de l’Université de Waterloo en Ontario suggère que les modèles d’IA devraient également être en mesure de le faire – un processus que les chercheurs appellent l’apprentissage «moins d’un», ou LO-shot. En d’autres termes, un modèle d’IA doit être capable de reconnaître avec précision plus objets que le nombre d’exemples sur lesquels il a été formé. Cela pourrait être un gros problème pour un domaine qui est devenu de plus en plus cher et inaccessible à mesure que les ensembles de données utilisés deviennent de plus en plus grands.

Comment fonctionne l’apprentissage instantané «moins d’un»

Les chercheurs ont d’abord démontré cette idée en expérimentant avec l’ensemble de données populaire de vision par ordinateur connu sous le nom de MNIST. MNIST, qui contient 60 000 images de formation de chiffres manuscrits de 0 à 9, est souvent utilisé pour tester de nouvelles idées sur le terrain.

Dans un article précédent, les chercheurs du MIT avaient introduit une technique pour «distiller» des ensembles de données géants en de très petits ensembles, et comme preuve de concept, ils avaient réduit le MNIST à seulement 10 images. Les images n’ont pas été sélectionnées dans l’ensemble de données d’origine, mais soigneusement conçues et optimisées pour contenir une quantité d’informations équivalente à l’ensemble complet. En conséquence, lorsqu’il est formé exclusivement sur les 10 images, un modèle d’IA pourrait atteindre presque la même précision qu’un modèle entraîné sur toutes les images du MNIST.

Chiffres manuscrits compris entre 0 et 9 échantillonnés à partir du jeu de données MNIST.
Exemples d’images de l’ensemble de données MNIST.

WIKIMEDIA

Dix images qui semblent absurdes mais qui sont les versions distillées de l'ensemble de données MNIST.
Les 10 images «distillées» de MNIST qui peuvent entraîner un modèle AI pour atteindre une précision de reconnaissance de 94% sur des chiffres manuscrits.

TONGZHOU WANG ET AL.

Les chercheurs de Waterloo voulaient pousser plus loin le processus de distillation. S’il est possible de réduire 60 000 images à 10, pourquoi ne pas les réduire en cinq? L’astuce, ont-ils réalisé, était de créer des images qui mélangent plusieurs chiffres, puis de les alimenter dans un modèle d’IA avec des étiquettes hybrides ou «souples». (Pensez à un cheval et à un rhinocéros ayant des caractéristiques partielles d’une licorne.)

«Si vous pensez au chiffre 3, il ressemble aussi au chiffre 8, mais rien au chiffre 7», explique Ilia Sucholutsky, doctorante à Waterloo et auteur principal de l’article. «Les étiquettes souples tentent de capturer ces fonctionnalités partagées. Donc, au lieu de dire à la machine: « Cette image est le chiffre 3 », nous disons: « Cette image est à 60% le chiffre 3, 30% le chiffre 8 et 10% le chiffre 0. » « 

Les limites de l’apprentissage LO-shot

Une fois que les chercheurs ont utilisé avec succès des étiquettes souples pour réaliser l’apprentissage LO-shot sur MNIST, ils ont commencé à se demander jusqu’où cette idée pouvait réellement aller. Y a-t-il une limite au nombre de catégories que vous pouvez apprendre à un modèle d’IA à identifier à partir d’un petit nombre d’exemples?

Étonnamment, la réponse semble être non. Avec des étiquettes souples soigneusement conçues, même deux exemples pourraient théoriquement coder n’importe quel nombre de catégories. «Avec deux points, vous pouvez séparer mille classes ou 10 000 classes ou un million de classes», dit Sucholutsky.

Pommes et oranges tracées sur un graphique en poids et en couleur.
Représentation des pommes (points verts et rouges) et des oranges (points orange) en poids et en couleur.

ADAPTÉ À PARTIR DU PLATEAU DE GLISSIÈRE «MACHINE LEARNING 101» DE JASON MAYES

C’est ce que démontrent les chercheurs dans leur dernier article, à travers une exploration purement mathématique. Ils mettent en pratique le concept avec l’un des algorithmes d’apprentissage automatique les plus simples, connus sous le nom de k-plus proches voisins (kNN), qui classe les objets à l’aide d’une approche graphique.

Pour comprendre comment fonctionne kNN, prenez la tâche de classer les fruits comme exemple. Si vous souhaitez entraîner un modèle kNN pour comprendre la différence entre les pommes et les oranges, vous devez d’abord sélectionner les fonctionnalités que vous souhaitez utiliser pour représenter chaque fruit. Vous choisissez peut-être la couleur et le poids, donc pour chaque pomme et orange, vous alimentez le kNN un point de données avec la couleur du fruit comme valeur x et le poids comme valeur y. L’algorithme kNN trace ensuite tous les points de données sur un graphique 2D et trace une ligne de démarcation directement au milieu entre les pommes et les oranges. À ce stade, le tracé est soigneusement divisé en deux classes et l’algorithme peut maintenant décider si les nouveaux points de données représentent l’un ou l’autre en fonction de quel côté de la ligne ils se trouvent.

Pour explorer l’apprentissage LO-shot avec l’algorithme kNN, les chercheurs ont créé une série de minuscules ensembles de données synthétiques et ont soigneusement conçu leurs étiquettes souples. Ensuite, ils ont laissé le kNN tracer les lignes de démarcation qu’il voyait et ont trouvé qu’il avait réussi à diviser le graphique en plus de classes que de points de données. Les chercheurs avaient également un degré élevé de contrôle sur l’emplacement des lignes de démarcation. En utilisant divers ajustements aux étiquettes souples, ils pouvaient obtenir l’algorithme kNN pour dessiner des motifs précis en forme de fleurs.

Divers graphiques montrant les lignes de démarcation tracées par un algorithme kNN. Chaque graphique a de plus en plus de lignes de délimitation, toutes codées dans de minuscules ensembles de données.
Les chercheurs ont utilisé des exemples d’étiquettes souples pour entraîner un algorithme kNN à coder des lignes de démarcation de plus en plus complexes, divisant le graphique en beaucoup plus de classes que de points de données. Chacune des zones colorées sur les tracés représente une classe différente, tandis que les graphiques à secteurs sur le côté de chaque tracé montrent la distribution des étiquettes souples pour chaque point de données.

ILIA SUCHOLUTSKY ET AL.

Bien entendu, ces explorations théoriques ont certaines limites. Alors que l’idée de l’apprentissage LO-shot devrait être transférée à des algorithmes plus complexes, la tâche d’ingénierie des exemples à étiquetage souple devient beaucoup plus difficile. L’algorithme kNN est interprétable et visuel, ce qui permet aux humains de concevoir les étiquettes; les réseaux de neurones sont compliqués et impénétrables, ce qui signifie que la même chose peut ne pas être vraie. La distillation des données, qui fonctionne pour la conception d’exemples à étiquetage souple pour les réseaux de neurones, présente également un inconvénient majeur: elle vous oblige à commencer avec un ensemble de données géant afin de le réduire à quelque chose de plus efficace.

Sucholutsky dit qu’il travaille maintenant à trouver d’autres moyens de concevoir ces minuscules ensembles de données synthétiques – que cela signifie les concevoir à la main ou avec un autre algorithme. Malgré ces défis de recherche supplémentaires, cependant, l’article fournit les bases théoriques de l’apprentissage LO-shot. «La conclusion est qu’en fonction du type d’ensembles de données dont vous disposez, vous pouvez probablement obtenir des gains d’efficacité massifs», dit-il.

C’est ce qui intéresse le plus Tongzhou Wang, un doctorant du MIT qui a dirigé les recherches antérieures sur la distillation des données. «Le document s’appuie sur un objectif vraiment nouveau et important: apprendre des modèles puissants à partir de petits ensembles de données», dit-il à propos de la contribution de Sucholutsky.

Ryan Khurana, chercheur à l’Institut d’éthique de l’IA de Montréal, fait écho à ce sentiment: «Plus important encore, l’apprentissage« moins d’un »réduirait radicalement les besoins en données pour construire un modèle fonctionnel.» Cela pourrait rendre l’IA plus accessible aux entreprises et aux industries qui ont jusqu’à présent été gênées par les besoins en données du domaine. Cela pourrait également améliorer la confidentialité des données, car moins d’informations devraient être extraites des individus pour former des modèles utiles.

Sucholutsky souligne que la recherche est encore précoce, mais il est enthousiasmé. Chaque fois qu’il commence à présenter son article à des collègues chercheurs, leur première réaction est de dire que l’idée est impossible, dit-il. Quand ils réalisent soudain que ce n’est pas le cas, cela ouvre un tout nouveau monde.

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici