Développer la capacité d’annoter des volumes massifs de données tout en maintenant la qualité est une fonction du cycle de vie de développement du modèle que les entreprises sous-estiment souvent. Cela demande beaucoup de ressources et nécessite une expertise spécialisée.

Au cœur de toute initiative réussie d’apprentissage automatique / intelligence artificielle (ML / AI) se trouve un engagement envers des données d’entraînement de haute qualité et un chemin vers des données de qualité qui sont prouvées et bien définies. Sans ce pipeline de données de qualité, l’initiative est vouée à l’échec.

Les équipes de vision par ordinateur ou de science des données se tournent souvent vers des partenaires externes pour développer leur pipeline de formation aux données, et ces partenariats stimulent les performances des modèles.

Il n’y a pas de définition unique de la qualité: les «données de qualité» dépendent entièrement du projet spécifique de vision par ordinateur ou d’apprentissage automatique. Cependant, il existe un processus général que toutes les équipes peuvent suivre lorsqu’elles travaillent avec un partenaire externe, et ce chemin vers des données de qualité peut être divisé en quatre phases prioritaires.

Critères d’annotation et exigences de qualité

La qualité des données d’entraînement est une évaluation de l’aptitude d’un ensemble de données à remplir son objectif dans un cas d’utilisation ML / AI donné.

L’équipe de vision par ordinateur doit établir un ensemble de règles sans ambiguïté qui décrivent ce que signifie la qualité dans le contexte de leur projet. Les critères d’annotation sont un ensemble de règles qui définissent les objets à annoter, comment les annoter correctement et quels sont les objectifs de qualité.

Les objectifs d’exactitude ou de qualité définissent le résultat acceptable le plus bas pour les mesures d’évaluation telles que l’exactitude, le rappel, la précision, le score F1, etc. En règle générale, une équipe de vision par ordinateur aura des objectifs de qualité pour déterminer avec quelle précision les objets d’intérêt ont été classés, avec quelle précision les objets ont été localisés et avec quelle précision les relations entre les objets ont été identifiées.

Formation de la main-d’œuvre et configuration de la plateformen

Configuration de la plate-forme. La conception des tâches et la configuration du flux de travail nécessitent du temps et de l’expertise, et des annotations précises nécessitent des outils spécifiques aux tâches. À ce stade, les équipes de science des données ont besoin d’un partenaire expérimenté pour les aider à déterminer la meilleure façon de configurer les outils d’étiquetage, les taxonomies de classification et les interfaces d’annotation pour plus de précision et de débit.

Test et notation des travailleurs. Pour étiqueter avec précision les données, les annotateurs ont besoin d’un programme de formation bien conçu afin de bien comprendre les critères d’annotation et le contexte du domaine. La plate-forme d’annotation ou le partenaire externe doit garantir l’exactitude en suivant activement les compétences des annotateurs par rapport aux tâches de données d’or ou lorsqu’un jugement est modifié par un travailleur ou un administrateur plus qualifié.

Vérité au sol ou données d’or. Les données de vérité terrain sont cruciales à ce stade du processus en tant que base de référence pour noter les travailleurs et mesurer la qualité de sortie. De nombreuses équipes de vision par ordinateur travaillent déjà avec un ensemble de données de vérité terrain.

Sources d’autorité et assurance qualité

Il n’y a pas d’approche unique d’assurance qualité (AQ) qui satisfasse aux normes de qualité de tous les cas d’utilisation de ML. Des objectifs commerciaux spécifiques, ainsi que le risque associé à un modèle sous-performant, conduiront aux exigences de qualité. Certains projets atteignent la qualité cible en utilisant plusieurs annotateurs. D’autres nécessitent des examens complexes par rapport à des données de vérité terrain ou des flux de travail d’escalade avec vérification par un expert en la matière.

Il existe deux sources principales d’autorité qui peuvent être utilisées pour mesurer la qualité des annotations et qui sont utilisées pour noter les travailleurs: les données sur l’or et les avis d’experts.

  • Données sur l’or: les données sur l’or ou l’ensemble des enregistrements de vérité terrain peuvent être utilisés à la fois comme un outil de qualification pour tester et noter les travailleurs au début du processus et également comme mesure de la qualité de sortie. Lorsque vous utilisez des données Gold pour mesurer la qualité, vous comparez les annotations des travailleurs à vos annotations d’experts pour le même ensemble de données, et la différence entre ces deux réponses indépendantes et aveugles peut être utilisée pour produire des mesures quantitatives telles que l’exactitude, le rappel, la précision et les scores F1. .
  • Examen par un expert: cette méthode d’assurance qualité repose sur l’examen d’un expert par un travailleur hautement qualifié, un administrateur ou un expert du côté client, parfois les trois. Il peut être utilisé en conjonction avec le contrôle qualité des données sur l’or. L’examinateur expert examine la réponse donnée par le travailleur qualifié et l’approuve ou apporte les corrections nécessaires, produisant une nouvelle réponse correcte. Au départ, un examen par un expert peut avoir lieu pour chaque instance de données étiquetées, mais au fil du temps, à mesure que la qualité des travailleurs s’améliore, l’examen par des experts peut utiliser un échantillonnage aléatoire pour un contrôle qualité continu.

Itérer sur le succès des données

Une fois qu’une équipe de vision par ordinateur a lancé avec succès un pipeline de données de formation de haute qualité, elle peut accélérer la progression vers un modèle prêt pour la production. Grâce à une assistance, une optimisation et un contrôle qualité continus, un partenaire externe peut les aider:

  • Suivre la vitesse: pour une mise à l’échelle efficace, il est bon de mesurer le débit d’annotation. Combien de temps faut-il aux données pour parcourir le processus? Le processus s’accélère-t-il?
  • Ajuster la formation des travailleurs: au fur et à mesure que le projet évolue, les exigences en matière d’étiquetage et de qualité peuvent évoluer. Cela nécessite une formation continue de la main-d’œuvre et une notation.
  • Entraînez-vous sur des cas de pointe: au fil du temps, les données d’entraînement devraient inclure de plus en plus de cas de bord afin de rendre votre modèle aussi précis et robuste que possible.

Sans des données de formation de haute qualité, même les projets de ML / IA les mieux financés et les plus ambitieux ne peuvent pas réussir. Les équipes de vision par ordinateur ont besoin de partenaires et de plates-formes fiables pour fournir la qualité de données dont elles ont besoin et pour alimenter des modèles ML / AI qui changent la vie dans le monde.

Alegion est le partenaire éprouvé pour construire le pipeline de données de formation qui alimentera votre modèle tout au long de son cycle de vie. Contactez Alegion au solutions@alegion.com.

Ce contenu a été produit par Alegion. Il n’a pas été rédigé par la rédaction de MIT Technology Review.