L’apprentissage en profondeur a déclenché la dernière révolution de l’IA, transformant la vision par ordinateur et le domaine dans son ensemble. Hinton pense que l’apprentissage en profondeur devrait être presque tout ce qui est nécessaire pour reproduire pleinement l’intelligence humaine.

Mais malgré des progrès rapides, il reste des défis majeurs. Exposez un réseau neuronal à un ensemble de données inconnu ou à un environnement étranger, et il se révèle fragile et inflexible. Les voitures autonomes et les générateurs de langage pour rédiger des essais impressionnent, mais les choses peuvent mal tourner. Les systèmes visuels d’IA peuvent être facilement confondus: une tasse de café reconnue de côté serait une inconnue d’en haut si le système n’avait pas été formé sur cette vue; et avec la manipulation de quelques pixels, un panda peut être confondu avec une autruche, ou même un autobus scolaire.

GLOM aborde deux des problèmes les plus difficiles pour les systèmes de perception visuelle: comprendre une scène entière en termes d’objets et de leurs parties naturelles; et reconnaître les objets vus d’un nouveau point de vue (le GLOM se concentre sur la vision, mais Hinton s’attend à ce que l’idée puisse également être appliquée au langage).

Un objet comme le visage de Hinton, par exemple, est composé de ses yeux vifs mais fatigués par le chien (trop de gens posant des questions; trop peu de sommeil), sa bouche et ses oreilles, et un nez proéminent, le tout surmonté d’un pas-trop. -un ébouriffement ténébreux principalement gris. Et vu son nez, il est facilement reconnaissable même à première vue en vue de profil.

Ces deux facteurs – la relation partie-tout et le point de vue – sont, du point de vue de Hinton, cruciaux pour la façon dont les humains font une vision. «Si GLOM fonctionne un jour», dit-il, «il fera la perception d’une manière beaucoup plus humaine que les réseaux neuronaux actuels.»

Le regroupement de pièces en ensembles, cependant, peut être un problème difficile pour les ordinateurs, car les pièces sont parfois ambiguës. Un cercle peut être un œil, un beignet ou une roue. Comme l’explique Hinton, la première génération de systèmes de vision par IA a tenté de reconnaître les objets en s’appuyant principalement sur la géométrie de la relation partie-tout – l’orientation spatiale entre les parties et entre les parties et le tout. À la place, la deuxième génération reposait principalement sur l’apprentissage en profondeur, laissant le réseau neuronal s’entraîner sur de grandes quantités de données. Avec GLOM, Hinton combine les meilleurs aspects des deux approches.

«Il y a une certaine humilité intellectuelle que j’aime à ce sujet», déclare Gary Marcus, fondateur et PDG de Robust.AI et un critique bien connu de la forte dépendance à l’apprentissage en profondeur. Marcus admire la volonté de Hinton de contester quelque chose qui lui a valu la renommée, d’admettre que cela ne fonctionne pas tout à fait. «C’est courageux», dit-il. «Et c’est un excellent correctif de dire: ‘J’essaie de sortir des sentiers battus.’»

L’architecture GLOM

En créant GLOM, Hinton a essayé de modéliser certains des raccourcis mentaux – stratégies intuitives ou heuristiques – que les gens utilisent pour donner un sens au monde. «GLOM, et en fait une grande partie du travail de Geoff, consiste à examiner les heuristiques que les gens semblent avoir, à construire des réseaux neuronaux qui pourraient eux-mêmes avoir ces heuristiques, puis à montrer que les réseaux font mieux en vision», déclare Nick Frosst, un informaticien dans une startup de langue à Toronto qui a travaillé avec Hinton chez Google Brain.

Avec la perception visuelle, une stratégie consiste à analyser des parties d’un objet, telles que les différents traits du visage, et ainsi comprendre l’ensemble. Si vous voyez un certain nez, vous pourriez le reconnaître comme faisant partie du visage de Hinton; c’est une hiérarchie partielle. Pour construire un meilleur système de vision, Hinton dit: «J’ai une forte intuition que nous devons utiliser des hiérarchies partielles.» Les cerveaux humains comprennent cette composition en partie-tout en créant ce qu’on appelle un «arbre d’analyse» – un diagramme de ramification démontrant la relation hiérarchique entre le tout, ses parties et ses sous-parties. Le visage lui-même est au sommet de l’arbre et les yeux, le nez, les oreilles et la bouche des composants forment les branches ci-dessous.

L’un des principaux objectifs de Hinton avec GLOM est de reproduire l’arbre d’analyse dans un réseau de neurones – cela le distinguerait des réseaux de neurones qui existaient auparavant. Pour des raisons techniques, c’est difficile à faire. «C’est difficile parce que chaque image individuelle serait analysée par une personne dans un arbre d’analyse unique, nous voudrions donc qu’un réseau neuronal fasse de même», explique Frosst. «Il est difficile d’obtenir quelque chose avec une architecture statique – un réseau de neurones – pour adopter une nouvelle structure – un arbre d’analyse – pour chaque nouvelle image qu’il voit.» Hinton a fait diverses tentatives. GLOM est une révision majeure de sa précédente tentative en 2017, combinée à d’autres avancées connexes dans le domaine.

«Je fais partie d’un nez!»

Vecteur GLOM

Grille de visage Hinton

MS TECH | EVIATAR BACH VIA WIKIMEDIA

Une façon généralisée de penser l’architecture GLOM est la suivante: L’image d’intérêt (par exemple, une photographie du visage de Hinton) est divisée en une grille. Chaque région de la grille est un «emplacement» sur l’image – un emplacement peut contenir l’iris d’un œil, tandis qu’un autre peut contenir le bout de son nez. Pour chaque emplacement du réseau, il y a environ cinq couches ou niveaux. Et niveau par niveau, le système fait une prédiction, avec un vecteur représentant le contenu ou l’information. À un niveau près du bas, le vecteur représentant l’emplacement de la pointe du nez peut prédire: « Je fais partie d’un nez! » Et au niveau supérieur, en construisant une représentation plus cohérente de ce qu’il voit, le vecteur pourrait prédire: «Je fais partie d’un visage en vue d’angle latéral!»

Mais alors la question est de savoir si les vecteurs voisins au même niveau sont d’accord? Lorsqu’ils sont d’accord, les vecteurs pointent dans la même direction, vers la même conclusion: «Oui, nous appartenons tous les deux au même nez.» Ou plus haut dans l’arborescence d’analyse. «Oui, nous appartenons tous les deux au même visage.»

Recherche d’un consensus sur la nature d’un objet – sur ce qu’est précisément l’objet, en fin de compte – les vecteurs de GLOM de manière itérative, emplacement par emplacement et couche après couche, en moyenne avec les vecteurs voisins à côté, ainsi que les vecteurs prédits à partir des niveaux supérieurs et inférieurs .

Cependant, le net n’est pas «bon gré mal gré» avec n’importe quoi à proximité, dit Hinton. Il fait la moyenne de manière sélective, avec des prédictions voisines qui affichent des similitudes. «C’est un peu bien connu en Amérique, c’est ce qu’on appelle une chambre d’écho», dit-il. «Ce que vous faites, c’est que vous n’acceptez que les opinions de personnes qui sont déjà d’accord avec vous; et puis ce qui se passe, c’est que vous obtenez une chambre d’écho où tout un tas de gens ont exactement la même opinion. GLOM l’utilise en fait de manière constructive. » Le phénomène analogue dans le système de Hinton est ces «îlots d’accord».

« Geoff est un penseur très inhabituel … »

Sue Becker

«Imaginez un groupe de personnes dans une pièce, criant de légères variations de la même idée», dit Frosst – ou imaginez ces personnes comme des vecteurs pointant vers de légères variations dans la même direction. «Après un certain temps, ils convergeraient vers une seule idée, et ils la sentiraient tous plus forts, car ils l’avaient confirmée par les autres personnes autour d’eux. C’est ainsi que les vecteurs de GLOM renforcent et amplifient leurs prédictions collectives sur une image.

GLOM utilise ces îlots de vecteurs d’accord pour accomplir l’astuce de représenter un arbre d’analyse dans un réseau neuronal. Alors que certains réseaux neuronaux récents utilisent l’accord entre les vecteurs pour Activation, GLOM utilise un accord pour représentation– construire des représentations d’objets dans le réseau. Par exemple, lorsque plusieurs vecteurs conviennent qu’ils représentent tous une partie du nez, leur petit groupe d’accord représente collectivement le nez dans l’arbre d’analyse du filet pour le visage. Un autre petit groupe de vecteurs d’accord pourrait représenter la bouche dans l’arbre d’analyse; et le grand groupe au sommet de l’arbre représenterait la conclusion émergente que l’image dans son ensemble est le visage de Hinton. «La façon dont l’arbre d’analyse est représenté ici», explique Hinton, «est qu’au niveau de l’objet, vous avez une grande île; les parties de l’objet sont des îles plus petites; les sous-parties sont des îles encore plus petites, et ainsi de suite. »

Figure 2 tirée de l’article GLOM de Hinton. Les îlots de vecteurs identiques (flèches de même couleur) aux différents niveaux représentent un arbre d’analyse.

GEOFFREY HINTON

Selon l’ami et collaborateur de longue date de Hinton, Yoshua Bengio, informaticien au Université de Montréal, si GLOM parvient à résoudre le défi technique de la représentation d’un arbre d’analyse dans un réseau neuronal, ce serait un exploit – ce serait important pour que les réseaux neuronaux fonctionnent correctement. «Geoff a produit des intuitions incroyablement puissantes à plusieurs reprises au cours de sa carrière, dont beaucoup se sont avérées justes», déclare Bengio. «Par conséquent, je fais attention à eux, surtout quand il est aussi attaché à eux qu’à GLOM.»

La force de la conviction de Hinton est enracinée non seulement dans l’analogie de la chambre d’écho, mais aussi dans les analogies mathématiques et biologiques qui ont inspiré et justifié certaines des décisions de conception dans la nouvelle ingénierie de GLOM.

«Geoff est un penseur très inhabituel en ce sens qu’il est capable de s’appuyer sur des concepts mathématiques complexes et de les intégrer à des contraintes biologiques pour développer des théories», explique Sue Becker, une ancienne étudiante de Hinton, maintenant neuroscientifique cognitive computationnelle à l’Université McMaster. «Les chercheurs qui se concentrent plus étroitement sur la théorie mathématique ou la neurobiologie sont beaucoup moins susceptibles de résoudre le casse-tête infiniment fascinant de la façon dont les machines et les humains peuvent apprendre et penser.»

Transformer la philosophie en ingénierie

Jusqu’à présent, la nouvelle idée de Hinton a été bien accueillie, en particulier dans certaines des plus grandes chambres d’écho au monde. «Sur Twitter, j’ai beaucoup de likes», dit-il. Et un didacticiel YouTube a revendiqué le terme « MeGLOMania ».

Hinton est le premier à admettre qu’à l’heure actuelle, GLOM n’est guère plus qu’une réflexion philosophique (il a passé un an en tant que premier cycle en philosophie avant de passer à la psychologie expérimentale). «Si une idée sonne bien en philosophie, c’est bien», dit-il. «Comment auriez-vous jamais une idée philosophique qui sonne juste comme de la merde, mais qui s’avère en fait vraie? Cela ne passerait pas pour une idée philosophique. La science, en comparaison, est «pleine de choses qui ressemblent à des ordures complètes» mais qui fonctionnent remarquablement bien – par exemple, des réseaux neuronaux, dit-il.

GLOM est conçu pour sembler philosophiquement plausible. Mais cela fonctionnera-t-il?