Autrefois considérées comme moins souhaitables que les données réelles, les données synthétiques sont désormais considérées par certains comme une panacée. Les données réelles sont désordonnées et truffées de biais. Les nouvelles réglementations sur la confidentialité des données rendent leur collecte difficile. En revanche, les données synthétiques sont vierges et peuvent être utilisées pour créer des ensembles de données plus diversifiés. Vous pouvez produire des visages parfaitement étiquetés, par exemple, de différents âges, formes et ethnies pour créer un système de détection de visages qui fonctionne à travers les populations.

Mais les données synthétiques ont leurs limites. Si elle ne reflète pas la réalité, elle pourrait finir par produire une IA encore pire que des données du monde réel désordonnées et biaisées, ou elle pourrait simplement hériter des mêmes problèmes. « Ce que je ne veux pas faire, c’est approuver ce paradigme et dire: » Oh, cela résoudra tellement de problèmes «  », déclare Cathy O’Neil, data scientist et fondatrice du cabinet d’audit algorithmique ORCAA. « Parce qu’il ignorera aussi beaucoup de choses. »

Réaliste, pas réel

L’apprentissage en profondeur a toujours été une question de données. Mais au cours des dernières années, la communauté de l’IA a appris que bien les données sont plus importantes que gros Les données. Même de petites quantités de données correctes et proprement étiquetées peuvent faire plus pour améliorer les performances d’un système d’IA que 10 fois la quantité de données non conservées, ou même un algorithme plus avancé.

Cela change la façon dont les entreprises doivent aborder le développement de leurs modèles d’IA, déclare Ofir Chakon, PDG et cofondateur de Datagen. Aujourd’hui, ils commencent par acquérir autant de données que possible, puis ajustent et ajustent leurs algorithmes pour de meilleures performances. Au lieu de cela, ils devraient faire le contraire : utiliser le même algorithme tout en améliorant la composition de leurs données.

Datagen génère également de faux meubles et des environnements intérieurs pour mettre ses faux humains en contexte.

DATAGEN

Mais collecter des données du monde réel pour effectuer ce type d’expérimentation itérative est trop coûteux et prend trop de temps. C’est là qu’intervient Datagen. Avec un générateur de données synthétiques, les équipes peuvent créer et tester des dizaines de nouveaux ensembles de données par jour pour identifier celui qui maximise les performances d’un modèle.

Pour garantir le réalisme de ses données, Datagen donne à ses fournisseurs des instructions détaillées sur le nombre de personnes à analyser dans chaque tranche d’âge, plage d’IMC et origine ethnique, ainsi qu’une liste d’actions à effectuer, comme se promener dans une pièce ou boire un soda. Les fournisseurs renvoient à la fois des images statiques haute fidélité et des données de capture de mouvement de ces actions. Les algorithmes de Datagen étendent ensuite ces données en centaines de milliers de combinaisons. Les données synthétisées sont parfois à nouveau vérifiées. Les faux visages sont tracés contre de vrais visages, par exemple, pour voir s’ils semblent réalistes.

Datagen génère désormais des expressions faciales pour surveiller la vigilance du conducteur dans les voitures intelligentes, les mouvements du corps pour suivre les clients dans les magasins sans caissier, et les iris et les mouvements des mains pour améliorer les capacités de suivi des yeux et des mains des casques VR. La société affirme que ses données ont déjà été utilisées pour développer des systèmes de vision par ordinateur desservant des dizaines de millions d’utilisateurs.

Ce ne sont pas seulement les humains synthétiques qui sont fabriqués en série. Click-Ins est une startup qui utilise l’IA synthétique pour effectuer des inspections automatisées de véhicules. À l’aide d’un logiciel de conception, il recrée toutes les marques et tous les modèles de voitures que son IA doit reconnaître, puis les restitue avec différentes couleurs, dommages et déformations dans différentes conditions d’éclairage, sur différents arrière-plans. Cela permet à l’entreprise de mettre à jour son IA lorsque les constructeurs automobiles lancent de nouveaux modèles et l’aide à éviter les violations de la confidentialité des données dans les pays où les plaques d’immatriculation sont considérées comme des informations privées et ne peuvent donc pas être présentes sur les photos utilisées pour former l’IA.

Click-Ins rend les voitures de différentes marques et modèles sur différents arrière-plans.

CLICK-INS

Mostly.ai travaille avec des sociétés financières, de télécommunications et d’assurance pour fournir des feuilles de calcul de fausses données client qui permettent aux entreprises de partager leur base de données clients avec des fournisseurs externes d’une manière conforme à la loi. L’anonymisation peut réduire la richesse d’un ensemble de données mais ne parvient toujours pas à protéger adéquatement la vie privée des personnes. Mais les données synthétiques peuvent être utilisées pour générer de faux ensembles de données détaillés qui partagent les mêmes propriétés statistiques que les données réelles d’une entreprise. Il peut également être utilisé pour simuler des données dont l’entreprise ne dispose pas encore, y compris une population de clients plus diversifiée ou des scénarios comme une activité frauduleuse.

Les partisans des données synthétiques disent qu’elles peuvent également aider à évaluer l’IA. Dans un article récent publié lors d’une conférence sur l’IA, Suchi Saria, professeur agrégé d’apprentissage automatique et de soins de santé à l’Université Johns Hopkins, et ses coauteurs ont démontré comment les techniques de génération de données pouvaient être utilisées pour extrapoler différentes populations de patients à partir d’un seul ensemble de données. . Cela pourrait être utile si, par exemple, une entreprise ne disposait que des données de la population plus jeune de New York, mais souhaitait comprendre les performances de son IA sur une population vieillissante avec une prévalence plus élevée de diabète. Elle démarre maintenant sa propre entreprise, Bayesian Health, qui utilisera cette technique pour aider à tester les systèmes d’IA médicale.

Les limites de faire semblant

Mais les données synthétiques sont-elles overhyped ?

En ce qui concerne la confidentialité, « ce n’est pas parce que les données sont » synthétiques « et ne correspondent pas directement aux données réelles des utilisateurs qu’elles ne codent pas d’informations sensibles sur des personnes réelles », explique Aaron Roth, professeur d’informatique et de sciences de l’information. à l’Université de Pennsylvanie. Il a été démontré que certaines techniques de génération de données reproduisent fidèlement les images ou le texte trouvés dans les données d’entraînement, par exemple, tandis que d’autres sont vulnérables aux attaques qui les obligent à régurgiter complètement ces données.

Cela pourrait convenir à une entreprise comme Datagen, dont les données synthétiques ne visent pas à dissimuler l’identité des personnes qui ont consenti à être scannées. Mais ce serait une mauvaise nouvelle pour les entreprises qui proposent leur solution comme moyen de protéger les informations financières ou des patients sensibles.

La recherche suggère que la combinaison de deux techniques de données synthétiques en particulier – la confidentialité différentielle et les réseaux accusatoires génératifs – peut produire les protections de la vie privée les plus solides, explique Bernease Herman, data scientist à l’Institut eScience de l’Université de Washington. Mais les sceptiques craignent que cette nuance ne se perde dans le jargon marketing des fournisseurs de données synthétiques, qui ne seront pas toujours au courant des techniques qu’ils utilisent.