Modèles d’apprentissage auto-supervisé : plus vulnérables aux attaques

Des chercheurs ont découvert une faille dans les modèles d'apprentissage auto-supervisé qui les rendrait vulnérables aux attaques.

Le machine learning (ML) est un terme devenu très populaire dans le domaine de l'intelligence artificielle. Il permet aux ordinateurs de résoudre divers problèmes de manière autonome. Pour cela, il repose sur des structures très complexes de réseaux neuronaux. Mais comme tout système informatique, un modèle ML peut faire l'objet de cyberattaques.

Les menaces auxquelles le machine learning fait face

D'une manière générale, une cyberattaque peut se présenter sous deux cas différents. Le premier consiste à compromettre le système en s'attaquant au modèle ou en introduisant des données « contaminés » tandis que l'autre consiste à voler des informations. En matière d'IA et de machine learning, ce deuxième aspect entre dans la catégorie des attaques contre la confidentialité. Mais l'attaque contre la confidentialité peut encore être répartie en deux catégories : l'extraction des données ou l'extraction du modèle.

C'est sur ce dernier point que des chercheurs de l'Université de Toronto et du Vector Institute for Artificial Intelligence ont mené une étude. Dans un article récent, ils ont présenté une nouvelle méthode qui permettrait de s'attaquer aux modèles ML, même les plus sécurisés. Les résultats de leur recherche montrent que les modèles d'apprentissage auto-supervisé sont les plus vulnérables aux attaques.

Une brèche dans les modèles d'apprentissage auto-supervisé qui favorise les attaques

L'apprentissage auto-supervisé (SSL) est une approche intermédiaire entre l'apprentissage supervisé et non supervisé. Le modèle est formé sur des données non étiquetées et génère lui-même les étiquettes. Selon les chercheurs, les résultats sont des représentations à haute dimension qu'ils traduisent alors par une fuite d'informations. En d'autres termes, ils contiennent beaucoup d'informations facilitant ainsi l'extraction et la reproduction du modèle.

Ils ont découvert cela en simulant des attaques qui peuvent extraire les modèles d'apprentissage auto-supervisé. Dans le cadre de l'étude, les chercheurs ont testé trois approches différentes et ont constaté que l'extraction directe du modèle est la méthode la plus efficace pour obtenir une réplique fonctionnelle. Elle consistait à comparer la sortie du modèle à la sortie d'un codeur recréé avec une fonction de perte.

En gros, l'étude a permis de prouver la vulnérabilité des modèles SSl aux attaques par rapport aux modèles d'apprentissage supervisé. Par ailleurs, l'extraction du modèle est plus difficile à détecter étant donné que le modèle recréé se comporte comme l'authentique.

Partager l'article :