Le projet OpenStreetMap est un excellent exemple de la puissance des données de crowdsourcing, mais cela ne veut pas dire que le système est parfait. Des données non valides, ajoutées intentionnellement ou non, peuvent parfois passer entre les mailles du filet et conduire à des problèmes intéressants. Un fait dont les développeurs Asobo Studio sont de plus en plus conscients à mesure que les joueurs explorent leur sortie récente Microsoft Flight Simulator 2020.

Comme un wiki, les utilisateurs peuvent mettre à jour OpenStreetMap et il y a environ un an, l'utilisateur nathanwright120 a marqué un bâtiment de 2 étages près de Melbourne, en Australie, comme ayant un incroyable 212 étages (nous pensons que c'est ce commit). Le reste de ses modifications semblent assez légitimes, il y a donc fort à parier qu'il s'agissait simplement d'une faute de frappe faite à la hâte. Le genre de chose qui pourrait arriver à n'importe qui. Peu de temps après, grâce à la beauté de l'open source, un autre utilisateur a détecté l'erreur et l'a corrigée.

Mais pas avant qu'un script écrit par Asobo Studio n'ait aspiré les données OpenStreetMap pour l'Australie et les ait implémentées dans leur recréation virtuelle de la planète. Le résultat est que le simulateur de vol très attendu dispose désormais d'un structure majestueuse dans les toits de Melbourne qui dépasse de loin… tout.

Le tout est très amusant, et honnêtement, les joueurs ne s'en soucieraient probablement même pas s'il restait comme un œuf de Pâques. Il leur fournit certainement une publicité gratuite; dans la vidéo ci-dessous, vous pouvez voir un joueur du nom de Conor O’Kane poser son avion sur l'édifice vertigineux, un exploit qui lui a valu près de 100 000 vues en quelques jours.

Mais cela nous fait réfléchir au filtrage des données crowdsourcing. Si vous demandez à des personnes au hasard, par exemple, d'identifier les soucoupes volantes dans les images de la NASA, comment filtrez-vous cela? Vous ne voulez probablement pas considérer les commentaires d’une personne comme faisant autorité. Et 10 personnes? Ou une centaine?

L'armée marche sur les données

Quand vous pensez aux données géospatiales, quelles heuristiques pourriez-vous utiliser pour au moins identifier les zones à examiner de plus près? Dans ce cas, le fait que le plus haut bâtiment du monde ne compte que 163 étages aurait été un bon indice. Même si le bâtiment comptait 100 étages, le fait que rien d'autre à proximité ne contienne ne serait-ce qu'un quart de ce nombre serait un autre indice. Dans les deux cas, la Grande Tour de Melbourne aurait pu être évitée avec une seule ligne de code validant les données de hauteur extraites d'OpenStreetMap.

Pour le terrain, les changements rapides d'altitude peuvent être un autre indicateur de données. Cela aurait empêché le mur de glace qui nous protège des White Walkers. Nous nous sommes demandé si quelqu'un avait déjà réfléchi à cela. Il s'avère que l'armée américaine l'a fait. Ils mentionnent même OpenStreetMap et de nombreuses autres sources, dont certaines que nous ne connaissions pas.

Section 4 du bien nommé Données géospatiales crowdsourcées explique comment contrôler les données du crowdsourcing et corriger les erreurs dues à la variabilité des capteurs, à la langue et à d'autres facteurs techniques. Cependant, les erreurs dues à une incohérence logique devraient être modérément simples à filtrer, et l'article identifie les efforts visant à automatiser cela pour les données géospatiales. Par exemple, l'angle entre deux routes qui se croisent se situe généralement dans une plage d'angles relativement étroite.

Selon l'article, plusieurs chercheurs ont validé des données et ont trouvé des taux d'erreur élevés dans les sources d'information publiques. Par exemple, au Royaume-Uni et en Irlande, les données OpenStreetMap avec plus de 15 modifications comportaient des erreurs dans environ 8% du temps. En France, environ 5% des carrefours présentaient des imprécisions géométriques.

Graffiti géospatial

Bien sûr, cela suppose que les erreurs sont le résultat d'erreurs honnêtes. La protection contre la saisie de données malveillantes est un problème totalement différent, et potentiellement beaucoup plus difficile à identifier et à résoudre.

Cette situation est également abordée dans le rapport de l’armée, mais seulement brièvement. Il va de soi que si les militaires ont des trucs et astuces particuliers qu’ils utilisent pour flairer ce genre de choses, ils ne veulent probablement pas qu’ils deviennent publics.

Avec la popularité croissante des données crowdsourcées, il serait facile d'imaginer vouloir déplacer légèrement ou même considérablement les cibles clés. Un bunker «connu» comme étant au centre d'une installation pourrait survivre si les données indiquent que l'installation se trouve à quelques centaines de mètres à droite de sa position réelle. La désinformation a toujours été un outil puissant, et elle n’est amplifiée qu’à l’ère du Big Data.

Cela dit, certaines d'entre elles ne sont pas trop difficiles à trouver. Les gens utilisent en fait des pistes GPS pour épeler les graffitis dans OpenStreetMap, par exemple. Donc, si vous tombez sur des lettres d’un kilomètre de large écrites dans la campagne, il est probablement prudent de les laisser hors de votre simulateur de vol.

Plus proche de la maison

Cela ne s’applique pas uniquement aux données géospatiales. À quelle fréquence prenez-vous des données d'un capteur de pression ou de température? Le validez-vous? Pour des données à haute fiabilité, vous pouvez avoir besoin de plusieurs capteurs redondants avec une logique de vote. C'est courant dans les avions et les vaisseaux spatiaux. Vous pouvez avoir trois capteurs et prendre la moyenne des trois s'ils lisent de près ou en rejeter un s'il est très éloigné de ses homologues.

Un drone commercial a soudainement décidé qu'il était à 4096 pieds sous le niveau de la mer en raison d'un capteur de pression défectueux. L'ascension rapide qui en a résulté pour tenter de corriger l'altitude était à la fois incroyable et terrifiante puisqu'il s'agissait d'un gros drone. Le micrologiciel aurait dû faire des hypothèses simples sur la qualité des données, comme se rendre compte qu'il n'était pas susceptible de se retrouver soudainement à des centaines de mètres sous le niveau du joint, ou que les données ne suivaient pas la tendance attendue alors qu'il tentait de gagner de l'altitude. . Cela aurait certainement rendu ma journée plus facile, sans parler de celle du pilote.

Quelle est votre astuce de validation de données préférée? Dans quelle mesure faites-vous confiance aux données de crowdsource? Wikipédia a généralement raison sur le long terme, mais il y a certainement des cas où de mauvaises données glissent jusqu'à ce que quelqu'un les attrape.

Merci (ptkwilliams) pour le conseil sur Flight Simulator.

LAISSER UN COMMENTAIRE

Rédigez votre commentaire !
Entrez votre nom ici