Facktualité

Renforcer les LLM d’entreprise avec les bases des opérations d’apprentissage automatique

Par

22 septembre 2023

Une fois ces composants en place, les défis LLM plus complexes nécessiteront des approches et des considérations nuancées, de l’infrastructure aux capacités, en passant par l’atténuation des risques et les talents.

Déployer des LLM en tant que backend

L’inférence avec des modèles ML traditionnels implique généralement de conditionner un objet de modèle en tant que conteneur et de le déployer sur un serveur d’inférence. À mesure que les exigences envers le modèle augmentent (plus de demandes et plus de clients nécessitent plus de décisions d’exécution (QPS plus élevés dans une limite de latence)), il suffit d’ajouter davantage de conteneurs et de serveurs pour faire évoluer le modèle. Dans la plupart des environnements d’entreprise, les processeurs fonctionnent parfaitement pour l’inférence de modèle traditionnelle. Mais l’hébergement de LLM est un processus beaucoup plus complexe qui nécessite des considérations supplémentaires.

Les LLM sont composés de jetons, les unités de base d’un mot que le modèle utilise pour générer un langage de type humain. Ils effectuent généralement des prédictions jeton par jeton de manière autorégressive, sur la base des jetons générés précédemment jusqu’à ce qu’un mot vide soit atteint. Le processus peut rapidement devenir fastidieux : les tokenisations varient en fonction du modèle, de la tâche, du langage et des ressources informatiques. Les ingénieurs déployant des LLM ont non seulement besoin d’une expérience en matière d’infrastructure, comme le déploiement de conteneurs dans le cloud, mais ils doivent également connaître les dernières techniques pour maintenir les coûts d’inférence gérables et respecter les SLA de performances.

Bases de données vectorielles comme référentiels de connaissances

Le déploiement de LLM dans un contexte d’entreprise signifie que des bases de données vectorielles et d’autres bases de connaissances doivent être établies, et qu’elles fonctionnent ensemble en temps réel avec des référentiels de documents et des modèles de langage pour produire des résultats raisonnables, contextuellement pertinents et précis. Par exemple, un détaillant peut utiliser un LLM pour alimenter une conversation avec un client via une interface de messagerie. Le modèle doit accéder à une base de données contenant des données commerciales en temps réel pour appeler des informations précises et à jour sur les interactions récentes, le catalogue de produits, l’historique des conversations, les politiques de l’entreprise concernant la politique de retour, les promotions et publicités récentes sur le marché, les clients. les directives de service et les FAQ. Ces référentiels de connaissances sont de plus en plus développés sous forme de bases de données vectorielles permettant une récupération rapide des requêtes via des algorithmes de recherche vectorielle et d’indexation.

Formation et mise au point avec des accélérateurs matériels

Les LLM ont un défi supplémentaire : affiner les performances pour des performances optimales par rapport à des tâches spécifiques de l’entreprise. Les modèles de langage des grandes entreprises peuvent comporter des milliards de paramètres. Cela nécessite des approches plus sophistiquées que les modèles de ML traditionnels, notamment un cluster de calcul persistant avec des interfaces réseau à haut débit et des accélérateurs matériels tels que des GPU (voir ci-dessous) pour la formation et le réglage fin. Une fois formés, ces grands modèles ont également besoin de nœuds multi-GPU pour l’inférence avec des optimisations de mémoire et l’informatique distribuée activée.

Pour répondre aux demandes informatiques, les organisations devront réaliser des investissements plus importants dans des clusters GPU spécialisés ou d’autres accélérateurs matériels. Ces dispositifs matériels programmables peuvent être personnalisés pour accélérer des calculs spécifiques tels que les opérations matrice-vecteur. L’infrastructure de cloud public est un catalyseur important pour ces clusters.

Une nouvelle approche de la gouvernance et des garde-fous

L’atténuation des risques est primordiale tout au long du cycle de vie du modèle. L’observabilité, la journalisation et le traçage sont des composants essentiels des processus MLOps, qui aident à surveiller la précision, les performances, la qualité des données et la dérive des modèles après leur publication. Ceci est également essentiel pour les LLM, mais il existe des couches d’infrastructure supplémentaires à prendre en compte.

Les LLM peuvent « halluciner », ce qui leur permet parfois de produire de fausses connaissances. Les organisations ont besoin de garde-fous appropriés (des contrôles qui appliquent un format ou une politique spécifique) pour garantir que les LLM en production renvoient des réponses acceptables. Les modèles de ML traditionnels s’appuient sur des approches statistiques quantitatives pour appliquer des analyses des causes profondes afin de modéliser l’inexactitude et la dérive de la production. Avec les LLM, c’est plus subjectif : cela peut impliquer d’exécuter une notation qualitative des résultats du LLM, puis de l’exécuter sur une API avec des garde-fous prédéfinis pour garantir une réponse acceptable.