Facktualité

Dans la création de DBRX, le modèle d'IA open source le plus puissant au monde

Par

27 mars 2024

Lundi dernier, une douzaine d'ingénieurs et de cadres de la société de science des données et d'IA Databricks se sont réunis dans des salles de conférence connectées via Zoom pour savoir s'ils avaient réussi à créer un modèle de langage d'intelligence artificielle de pointe. L'équipe a consacré des mois et environ 10 millions de dollars à la formation de DBRX, un grand modèle de langage similaire dans sa conception à celui derrière ChatGPT d'OpenAI. Mais ils ne sauraient pas à quel point leur création était puissante jusqu'à ce que les résultats des tests finaux de ses capacités reviennent.

« Nous avons tout surpassé », a finalement déclaré Jonathan Frankle, architecte en chef des réseaux neuronaux chez Databricks et chef de l'équipe qui a construit DBRX, à l'équipe, qui a répondu avec des emojis de whoops, d'acclamations et d'applaudissements. Frankle évite généralement la caféine, mais prenait des gorgées de latte glacé après avoir passé une nuit blanche à rédiger les résultats.

Databricks publiera DBRX sous une licence open source, permettant à d'autres de s'appuyer sur son travail. Frankle a partagé des données montrant que sur une douzaine de points de référence mesurant la capacité du modèle d'IA à répondre à des questions de culture générale, à comprendre en lecture, à résoudre des énigmes logiques épineuses et à générer du code de haute qualité, DBRX était meilleur que tous les autres modèles open source disponibles.

Quatre personnes debout au coin d'un mur gris et jaune dans un bureau

Il a surpassé Llama 2 de Meta et Mixtral de Mistral, deux des modèles d'IA open source les plus populaires disponibles aujourd'hui. « Oui! » » a crié Ali Ghodsi, PDG de Databricks, lorsque les scores sont apparus. « Attendez, est-ce qu'on a battu le truc d'Elon ? » Frankle a répondu qu'ils avaient effectivement surpassé le modèle Grok AI récemment mis à disposition par xAI de Musk, ajoutant: « Je considérerai cela comme un succès si nous recevons un tweet méchant de sa part. »

À la surprise de l'équipe, à plusieurs égards, DBRX était également étonnamment proche de GPT-4, le modèle fermé d'OpenAI qui alimente ChatGPT et est largement considéré comme le summum de l'intelligence artificielle. « Nous avons établi un nouvel état de l'art pour les LLM open source », a déclaré Frankle avec un grand sourire.

Blocs de construction

En open source, DBRX Databricks donne un nouvel élan à un mouvement qui remet en question l’approche secrète des entreprises les plus importantes dans le boom actuel de l’IA générative. OpenAI et Google gardent le code de leurs grands modèles de langage GPT-4 et Gemini sous contrôle, mais certains concurrents, notamment Meta, ont publié leurs modèles pour que d'autres puissent les utiliser, arguant que cela stimulerait l'innovation en mettant la technologie entre les mains d'un plus grand nombre de personnes. chercheurs, entrepreneurs, startups et entreprises établies.

Databricks dit vouloir également parler du travail impliqué dans la création de son modèle open source, ce que Meta n'a pas fait pour certains détails clés de la création de son modèle Llama 2. La société publiera un article de blog détaillant le travail nécessaire à la création du modèle et invitera également WIRED à passer du temps avec les ingénieurs de Databricks alors qu'ils prenaient des décisions clés au cours des étapes finales du processus de formation de DBRX de plusieurs millions de dollars. Cela a donné un aperçu de la complexité et du défi de construire un modèle d’IA de pointe, mais aussi de la façon dont les innovations récentes dans le domaine promettent de réduire les coûts. Ceci, combiné à la disponibilité de modèles open source comme DBRX, suggère que le développement de l’IA n’est pas près de ralentir.

Ali Farhadi, PDG de l'Allen Institute for AI, affirme qu'une plus grande transparence autour de la création et de la formation de modèles d'IA est absolument nécessaire. Le domaine est devenu de plus en plus secret ces dernières années, les entreprises cherchant à prendre l'avantage sur leurs concurrents. L’opacité est particulièrement importante lorsqu’on s’inquiète des risques que pourraient poser les modèles avancés d’IA, dit-il. « Je suis très heureux de constater tout effort d'ouverture », déclare Farhadi. « Je pense qu’une partie importante du marché s’orientera vers des modèles ouverts. Nous avons besoin de plus de cela. »