La perspicacité qui anime CaliberAI est que cet univers est un délimité infini. Bien que la modération de l’IA soit loin d’être en mesure de statuer de manière décisive sur la vérité et la fausseté, elle devrait être en mesure d’identifier le sous-ensemble de déclarations qui pourraient même être potentiellement diffamatoires.

Carl Vogel, professeur de linguistique computationnelle au Trinity College de Dublin, a aidé CaliberAI à construire son modèle. Il a une formule de travail pour les déclarations très susceptibles d’être diffamatoires: ils doivent nommer implicitement ou explicitement un individu ou un groupe; présenter une réclamation comme un fait; et utiliser une sorte de langage ou d’idée tabou – comme des suggestions de vol, d’ivresse ou d’autres types d’irrégularités. Si vous alimentez un algorithme d’apprentissage automatique avec un échantillon de texte suffisamment grand, il détectera les modèles et les associations entre les mots négatifs en fonction de l’entreprise qu’ils détiennent. Cela lui permettra de deviner intelligemment quels termes, s’ils sont utilisés à propos d’un groupe ou d’une personne spécifique, placent un contenu dans la zone de danger de diffamation.

Assez logiquement, il n’y avait aucun ensemble de données de matériel diffamatoire à utiliser par CaliberAI, car les éditeurs travaillent très dur pour éviter de mettre ces choses au monde. L’entreprise a donc construit la sienne. Conor Brady a commencé par s’appuyer sur sa longue expérience en journalisme pour générer une liste de déclarations diffamatoires. «Nous avons pensé à toutes les choses désagréables qui pourraient être dites à propos de n’importe quelle personne et nous les avons coupées, coupées en dés et mélangées jusqu’à ce que nous courions en quelque sorte toute la gamme de la fragilité humaine», dit-il. Ensuite, un groupe d’annotateurs, supervisé par Alan Reid et Abby Reynolds, linguiste informatique et linguiste de données de l’équipe, a utilisé la liste originale pour en créer une plus grande. Ils utilisent cet ensemble de données inventé pour former l’IA à attribuer des scores de probabilité aux phrases, de 0 (certainement pas diffamatoire) à 100 (appelez votre avocat).

Le résultat, jusqu’à présent, est quelque chose comme un correcteur orthographique pour diffamation. Vous pouvez jouer avec une version de démonstration sur le site Web de la société, qui avertit que « vous remarquerez peut-être de faux positifs / négatifs lorsque nous affinons nos modèles prédictifs. » J’ai tapé «Je crois que John est un menteur», et le programme a craché une probabilité de 40, en dessous du seuil de diffamation. Ensuite, j’ai essayé «Tout le monde sait que John est un menteur», et le programme a craché une probabilité de 80%, signalant «Tout le monde sait» (déclaration de fait), «John» (personne en particulier) et «menteur» (langage négatif) . Bien sûr, cela ne règle pas tout à fait la question. Dans la vraie vie, mon risque juridique dépendrait de savoir si je peux prouver que John est vraiment un menteur.

«Nous classons au niveau linguistique et renvoyons ce conseil à nos clients», déclare Paul Watson, directeur de la technologie de l’entreprise. «Ensuite, nos clients doivent mettre à profit leurs nombreuses années d’expérience pour dire:« Suis-je d’accord avec cet avis? » Je pense que c’est un fait très important de ce que nous construisons et essayons de faire. Nous n’essayons pas de construire un moteur de vérité terrain pour l’univers. »

Il est juste de se demander si les journalistes professionnels ont vraiment besoin d’un algorithme pour avertir qu’ils pourraient diffamer quelqu’un. «Tout bon rédacteur ou producteur, tout journaliste expérimenté doit le savoir quand il le voit», déclare Sam Terilli, professeur à la School of Communication de l’Université de Miami et ancien avocat général de la Miami Herald. «Ils devraient au moins être en mesure d’identifier les déclarations ou les passages qui sont potentiellement risqués et méritent un examen plus approfondi.»

Cependant, cet idéal n’est peut-être pas toujours à portée de main, en particulier pendant une période de petits budgets et de fortes pressions pour publier le plus rapidement possible.

«Je pense qu’il existe un cas d’utilisation vraiment intéressant avec les agences de presse», déclare Amy Kristin Sanders, avocate spécialisée dans les médias et professeur de journalisme à l’Université du Texas. Elle souligne les risques particuliers liés au reportage sur les dernières nouvelles, lorsqu’une histoire peut ne pas passer par un processus éditorial approfondi. « Pour les salles de rédaction de petite et moyenne taille – qui n’ont pas d’avocat général à leurs côtés quotidiennement, qui peuvent compter sur de nombreux pigistes et qui peuvent être à court de personnel, de sorte que le contenu est moins soumis à une critique éditoriale que par le passé – je pense qu’il pourrait y avoir de la valeur dans ce type d’outils. »