Les modèles d’IA qui peuvent analyser à la fois le langage et les entrées visuelles ont également des utilisations très pratiques. Si nous voulons construire des assistants robotiques, par exemple, ils ont besoin de la vision par ordinateur pour naviguer dans le monde et du langage pour en communiquer aux humains.

Mais combiner les deux types d’IA est plus facile à dire qu’à faire. Ce n’est pas aussi simple que d’agrafer un modèle de langage existant avec un système de reconnaissance d’objets existant. Cela nécessite de former un nouveau modèle à partir de zéro avec un ensemble de données qui comprend du texte et des images, également appelé ensemble de données en langage visuel.

L’approche la plus courante pour la conservation d’un tel ensemble de données consiste à compiler une collection d’images avec des légendes descriptives. Une image comme celle ci-dessous, par exemple, serait sous-titrée « Un chat orange est assis dans la valise, prêt à être emballé. » Cela diffère des ensembles de données d’image typiques, qui étiqueteraient la même image avec un seul nom, comme «chat». Un ensemble de données en langage visuel peut donc enseigner à un modèle d’IA non seulement comment reconnaître les objets, mais comment ils se rapportent et agissent les uns sur les autres, en utilisant des verbes et des prépositions.

Mais vous pouvez voir pourquoi ce processus de conservation des données prendrait une éternité. C’est pourquoi les ensembles de données en langage visuel qui existent sont si chétifs. Un ensemble de données populaires en texte seul comme Wikipedia anglais (qui comprend en effet presque toutes les entrées de Wikipédia en anglais) pourrait contenir près de 3 milliards de mots. Un ensemble de données en langage visuel comme Microsoft Common Objects in Context, ou MS COCO, n’en contient que 7 millions. Ce n’est tout simplement pas assez de données pour entraîner un modèle d’IA à quelque chose d’utile.

La «vokénisation» permet de contourner ce problème, en utilisant des méthodes d’apprentissage non supervisées pour adapter la petite quantité de données de MS COCO à la taille de Wikipedia anglais. Le modèle de langage visuel résultant surpasse les modèles de pointe dans certains des tests les plus difficiles utilisés pour évaluer la compréhension du langage de l’IA aujourd’hui.

«Vous ne battez pas l’état de l’art sur ces tests en essayant juste un peu», dit Thomas Wolf, le cofondateur et directeur scientifique de la startup de traitement du langage naturel Hugging Face, qui ne faisait pas partie de la recherche. «Ce n’est pas un test de jouet. C’est pourquoi c’est super excitant. »

Des jetons aux vokens

Commençons par trier la terminologie. Qu’est-ce qu’un «voken»?

Dans le langage IA, les mots utilisés pour entraîner les modèles de langage sont appelés jetons. Les chercheurs de l’UNC ont donc décidé d’appeler l’image associée à chaque jeton dans leur modèle de langage visuel un voken. Vokenizer est ce qu’ils appellent l’algorithme qui trouve des vokens pour chaque jeton, et vokenisation est ce qu’ils appellent tout le processus.

Le but n’est pas seulement de montrer à quel point les chercheurs en IA aiment inventer des mots. (Ils le font vraiment.) Cela aide également à briser l’idée de base derrière la vokénisation. Au lieu de commencer par un ensemble de données d’image et d’écrire manuellement des phrases pour servir de légendes – un processus très lent – les chercheurs de l’UNC ont commencé avec un ensemble de données linguistiques et ont utilisé un apprentissage non supervisé pour faire correspondre chaque mot avec une image pertinente (nous en parlerons plus tard). Il s’agit d’un processus hautement évolutif.

La technique d’apprentissage non supervisé, ici, est en fin de compte la contribution de l’article. Comment trouvez-vous réellement une image pertinente pour chaque mot?

Vokénisation

Revenons un instant à GPT-3. GPT-3 fait partie d’une famille de modèles de langage appelés transformateurs, qui représentaient une avancée majeure dans l’application de l’apprentissage non supervisé au traitement du langage naturel lorsque le premier a été introduit en 2017. Les transformateurs apprennent les modèles du langage humain en observant comment les mots sont utilisé dans le contexte, puis en créant une représentation mathématique de chaque mot, connue sous le nom d ‘«incorporation de mots», basée sur ce contexte. L’intégration du mot «chat» peut montrer, par exemple, qu’il est fréquemment utilisé autour des mots «miaou» et «orange», mais moins souvent autour des mots «écorce» ou «bleu».

C’est ainsi que les transformateurs approchent la signification des mots et comment GPT-3 peut écrire des phrases semblables à celles des humains. Il s’appuie en partie sur ces incorporations pour lui dire comment assembler des mots en phrases et des phrases en paragraphes.

Il existe une technique parallèle qui peut également être utilisée pour les images. Au lieu de scanner le texte pour les modèles d’utilisation des mots, il scanne les images pour les modèles visuels. Il tabule la fréquence à laquelle un chat, par exemple, apparaît sur un lit plutôt que sur un arbre, et crée un «chat» incorporant ces informations contextuelles.

La perspicacité des chercheurs de l’UNC était qu’ils devraient utiliser les deux techniques d’intégration sur MS COCO. Ils ont converti les images en incorporations visuelles et les légendes en incorporations de mots. Ce qui est vraiment intéressant à propos de ces incorporations, c’est qu’ils peuvent ensuite être représentés graphiquement dans un espace tridimensionnel, et vous pouvez littéralement voir comment ils sont liés les uns aux autres. Les incorporations visuelles étroitement liées aux incorporations de mots apparaîtront plus près dans le graphique. En d’autres termes, l’incorporation visuelle du chat devrait (en théorie) chevaucher l’incorporation textuelle du chat. Plutôt cool.

Vous pouvez voir où cela va. Une fois que les incorporations sont toutes représentées graphiquement, comparées et liées les unes aux autres, il est facile de commencer à faire correspondre des images (vokens) avec des mots (jetons). Et rappelez-vous, parce que les images et les mots sont mis en correspondance en fonction de leur intégration, ils sont également mis en correspondance en fonction du contexte. Ceci est utile lorsqu’un mot peut avoir des significations totalement différentes. La technique gère cela avec succès en trouvant différents vokens pour chaque instance du mot.

Par exemple:

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici