Machine learning : générer des fake news pour détecter les fake news

Générer des fake news à l'aide du machine learning permet de détecter plus efficacement la propagande et la désinformation.

Pour les humains, une approche pour vaincre son adversaire consiste à se mettre à sa place pour mieux le cerner. Ce même concept peut apparemment s'appliquer à la résolution des problèmes informatiques. De nouvelles recherches sur la détection des fake news utilisent les mêmes techniques de génération de ces fausses nouvelles.

Les techniques de désinformation

Des chercheurs américains et qatariens ont publié un article qui rapporte leurs travaux sur la détection de fake news, de propagande et de désinformation. En termes simples, l'étude consistait à simuler la propagande pour détecter les véritables propagandes. Cela a abouti à la création d'un nouvel ensemble de données d'entraînement pour les algorithmes de machine learning utilisés dans la détection des fake news.

Les chercheurs ont donc utilisé les mêmes techniques d'écriture de désinformation, en commençant par rassembler et analyser des articles de fake news écrits par des humains. L'analyse de ces articles a révélé que dans 33 % des cas, les techniques de propagande telles que les arguments d'autorité et les termes suscitant l'émotion. D'autre part, 55 % des créateurs ont mélangé les informations exactes et inexactes dans leurs articles.

Fake news et machine learning: générer pour identifier

Afin de créer un nouvel ensemble de données, les chercheurs ont donc généré des arguments d'autorité ainsi qu'un langage suscitant l'émotion. Le jeu de données généré, appelé PropaNews, inclut des articles fiables provenant de sources telles que The New York Times et The Guardian et de la propagande algorithmique. PropaNews contient au total 2 256 articles avec 30 % d'arguments d'autorité et 30 % de termes suscitant l'émotion.

Les chercheurs ont également créé un autre ensemble de données nommé HumanNews pour évaluer l'efficacité des routines de détection de la propagande. Celui-ci comprend des articles écrits par des humains provenant de différentes sources. Il contient également que 100 autres articles du Los Angeles Times.

Les résultats de l'étude ont affiché une nette amélioration par rapport aux approches précédentes. En effet, les détecteurs de fake news basés sur le machine learning et formés sur PropaNews seraient 7,3 à 12 % plus précis.

Partager l'article :