Obtenir de la valeur à partir de vos données ne devrait pas être aussi difficile

L’impact potentiel de l’explosion mondiale actuelle des données continue d’exciter l’imagination. Un rapport de 2018 a estimé que chaque seconde de chaque jour, chaque personne produit en moyenne 1,7 Mo de données – et la création annuelle de données a plus que doublé depuis et devrait encore plus que doubler d’ici 2025. Un rapport du McKinsey Global Institute estime que des utilisations habiles des mégadonnées pourraient générer 3 000 milliards de dollars supplémentaires d’activité économique, permettant des applications aussi diverses que les voitures autonomes, les soins de santé personnalisés et les chaînes d’approvisionnement alimentaire traçables.

Mais l’ajout de toutes ces données au système crée également une confusion sur la façon de les trouver, de les utiliser, de les gérer et de les partager légalement, en toute sécurité et efficacement. D’où vient un certain ensemble de données ? A qui appartient quoi ? Qui a le droit de voir certaines choses ? Où réside-t-il ? Peut-il être partagé ? Peut-il être vendu ? Les gens peuvent-ils voir comment il a été utilisé ?

À mesure que les applications de données se développent et deviennent plus omniprésentes, les producteurs, les consommateurs, les propriétaires et les intendants des données constatent qu’ils n’ont pas de manuel à suivre. Les consommateurs veulent se connecter à des données en lesquelles ils ont confiance afin de pouvoir prendre les meilleures décisions possibles. Les producteurs ont besoin d’outils pour partager leurs données en toute sécurité avec ceux qui en ont besoin. Mais les plates-formes technologiques sont insuffisantes et il n’y a pas de véritables sources de vérité communes pour connecter les deux côtés.

Comment trouvons-nous des données? Quand doit-on le déplacer ?

Dans un monde parfait, les données circuleraient librement comme un utilitaire accessible à tous. Il pourrait être emballé et vendu comme des matières premières. Il pouvait être consulté facilement, sans complications, par toute personne autorisée à le voir. Ses origines et ses mouvements pourraient être suivis, éliminant ainsi toute préoccupation concernant les utilisations néfastes quelque part le long de la ligne.

Le monde d’aujourd’hui, bien sûr, ne fonctionne pas de cette façon. L’explosion massive des données a créé une longue liste de problèmes et d’opportunités qui rendent difficile le partage de morceaux d’informations.

Les données étant créées presque partout à l’intérieur et à l’extérieur d’une organisation, le premier défi consiste à identifier ce qui est collecté et comment l’organiser pour pouvoir le trouver.

Un manque de transparence et de souveraineté sur les données et les infrastructures stockées et traitées ouvre des problèmes de confiance. Aujourd’hui, déplacer des données vers des emplacements centralisés à partir de plusieurs piles technologiques est coûteux et inefficace. L’absence de normes de métadonnées ouvertes et d’interfaces de programmation d’applications largement accessibles peut rendre difficile l’accès aux données et leur consommation. La présence d’ontologies de données spécifiques au secteur peut rendre difficile pour les personnes extérieures au secteur de bénéficier de nouvelles sources de données. Les multiples parties prenantes et les difficultés d’accès aux services de données existants peuvent rendre difficile le partage sans modèle de gouvernance.

L’Europe prend les devants

Malgré les problèmes, des projets de partage de données sont entrepris à grande échelle. Celui qui est soutenu par l’Union européenne et un groupe à but non lucratif crée un échange de données interopérable appelé Gaia-X, où les entreprises peuvent partager des données sous la protection de lois européennes strictes sur la confidentialité des données. L’échange est envisagé comme un navire pour partager des données entre les industries et un référentiel d’informations sur les services de données autour de l’intelligence artificielle (IA), de l’analyse et de l’Internet des objets.

Hewlett Packard Enterprise a récemment annoncé un cadre de solution pour soutenir la participation des entreprises, des fournisseurs de services et des organisations publiques à Gaia-X. La plate-forme d’espaces de données, actuellement en développement et basée sur des normes ouvertes et natives du cloud, démocratise l’accès aux données, à l’analyse de données et à l’IA en les rendant plus accessibles aux experts du domaine et aux utilisateurs communs. Il fournit un endroit où les experts des domaines peuvent identifier plus facilement des ensembles de données fiables et effectuer en toute sécurité des analyses sur les données opérationnelles, sans toujours nécessiter le déplacement coûteux des données vers des emplacements centralisés.

En utilisant ce cadre pour intégrer des sources de données complexes à travers les paysages informatiques, les entreprises seront en mesure de fournir une transparence des données à grande échelle, de sorte que tout le monde, qu’il s’agisse d’un data scientist ou non, sache de quelles données ils disposent, comment y accéder et comment les utiliser. en temps réel.

Les initiatives de partage de données figurent également parmi les priorités des entreprises. L’une des principales priorités auxquelles les entreprises sont confrontées est la vérification des données utilisées pour former des modèles internes d’IA et d’apprentissage automatique. L’IA et l’apprentissage automatique sont déjà largement utilisés dans les entreprises et l’industrie pour apporter des améliorations continues dans tous les domaines, du développement de produits au recrutement en passant par la fabrication. Et nous ne faisons que commencer. IDC prévoit que le marché mondial de l’IA passera de 328 milliards de dollars en 2021 à 554 milliards de dollars en 2025.

Pour libérer le véritable potentiel de l’IA, les gouvernements et les entreprises doivent mieux comprendre l’héritage collectif de toutes les données qui sous-tendent ces modèles. Comment les modèles d’IA prennent-ils leurs décisions ? Ont-ils des préjugés ? Sont-ils dignes de confiance ? Des individus non dignes de confiance ont-ils pu accéder ou modifier les données contre lesquelles une entreprise a entraîné son modèle ? Connecter les producteurs de données aux consommateurs de données de manière plus transparente et plus efficace peut aider à répondre à certaines de ces questions.

Construire la maturité des données

Les entreprises ne vont pas résoudre du jour au lendemain comment déverrouiller toutes leurs données. Mais ils peuvent se préparer à tirer parti des technologies et des concepts de gestion qui contribuent à créer une mentalité de partage de données. Ils peuvent s’assurer qu’ils développent la maturité nécessaire pour consommer ou partager des données de manière stratégique et efficace plutôt que de le faire sur une base ad hoc.

Les producteurs de données peuvent se préparer à une diffusion plus large des données en prenant une série de mesures. Ils doivent comprendre où se trouvent leurs données et comprendre comment ils les collectent. Ensuite, ils doivent s’assurer que les personnes qui consomment les données ont la possibilité d’accéder aux bons ensembles de données au bon moment. C’est le point de départ.

Vient ensuite la partie la plus difficile. Si un producteur de données a des consommateurs, qui peuvent être à l’intérieur ou à l’extérieur de l’organisation, ils doivent se connecter aux données. C’est à la fois un défi organisationnel et technologique. De nombreuses organisations souhaitent une gouvernance sur le partage de données avec d’autres organisations. La démocratisation des données – au moins pouvoir les trouver dans toutes les organisations – est un problème de maturité organisationnelle. Comment gèrent-ils cela?

Les entreprises qui contribuent à l’industrie automobile partagent activement des données avec des fournisseurs, des partenaires et des sous-traitants. Il faut beaucoup de pièces et beaucoup de coordination pour assembler une voiture. Les partenaires partagent facilement des informations sur tout, des moteurs aux pneus en passant par les canaux de réparation en ligne. Les espaces de données automobiles peuvent desservir jusqu’à 10 000 fournisseurs. Mais dans d’autres industries, cela pourrait être plus insulaire. Certaines grandes entreprises peuvent ne pas vouloir partager des informations sensibles, même au sein de leur propre réseau d’unités commerciales.

Créer une mentalité de données

Les entreprises de chaque côté du continuum consommateur-producteur peuvent faire progresser leur mentalité de partage de données en se posant ces questions stratégiques :

  • Si les entreprises créent des solutions d’IA et d’apprentissage automatique, où les équipes obtiennent-elles leurs données ? Comment se connectent-ils à ces données ? Et comment suivent-ils cet historique pour garantir la fiabilité et la provenance des données ?
  • Si les données ont de la valeur pour les autres, quelle est la voie de monétisation que l’équipe emprunte aujourd’hui pour développer cette valeur, et comment sera-t-elle régie ?
  • Si une entreprise échange ou monétise déjà des données, peut-elle autoriser un ensemble plus large de services sur plusieurs plates-formes, sur site et dans le cloud ?
  • Pour les organisations qui ont besoin de partager des données avec des fournisseurs, comment se fait la coordination de ces fournisseurs avec les mêmes ensembles de données et mises à jour aujourd’hui ?
  • Les producteurs veulent-ils répliquer leurs données ou obliger les gens à leur apporter des modèles ? Les ensembles de données peuvent être si volumineux qu’ils ne peuvent pas être répliqués. Une entreprise doit-elle héberger des développeurs de logiciels sur sa plate-forme où se trouvent ses données et déplacer les modèles vers l’intérieur et l’extérieur ?
  • Comment les employés d’un service consommateur de données peuvent-ils influencer les pratiques des producteurs de données en amont au sein de leur organisation ?

Prendre part

La révolution des données crée des opportunités commerciales, ainsi qu’une grande confusion sur la manière de rechercher, de collecter, de gérer et d’obtenir des informations à partir de ces données de manière stratégique. Les producteurs et les consommateurs de données sont de plus en plus déconnectés les uns des autres. HPE construit une plate-forme prenant en charge à la fois le cloud sur site et le cloud public, en utilisant l’open source comme base et des solutions telles que la plate-forme logicielle HPE Ezmeral pour fournir le terrain d’entente dont les deux parties ont besoin pour que la révolution des données fonctionne pour elles.

Lisez l’article original sur Enterprise.nxt.

Ce contenu a été produit par Hewlett Packard Enterprise. Il n’a pas été écrit par l’équipe éditoriale du MIT Technology Review.