Vous vous êtes déjà demandé quel était le pire ennemi de l’IA ? Eh bien ce sont apparemment ses propres données. Ce qui veut dire que chaque chatbot, que ce soit ChatGPT, Gemini ou Claude, dépend des informations qu’on leur donne. Or, C’est via ces données que l’on peut hacker une IA puisque la faille peut venir d’un fichier piégé. Et on appelle l’injection de ces fichiers l’empoisonnement de l’IA ou l’AI Poisoning.
Il s’agit en effet d’une technique qui consiste à infiltrer de fausses données dans le système d’apprentissage d’un modèle pour le détourner.
En d’autres termes, on apprend volontairement à un modèle d’intelligence artificielle à mal apprendre.
À titre d’exemple, c’est comme un élève brillant qui révise avec des fiches truquées. Tout semble normal, jusqu’au jour où il rend un devoir rempli d’erreurs, persuadé d’avoir bien répondu.
C’est exactement ce qui se passe lorsqu’un modèle d’IA est contaminé par des données corrompues. Et selon les chercheurs, il existe deux formes d’AI Poisoning.
Il y a le data poisoning, c’est-à-dire quand les données d’entraînement sont polluées dès le départ. Et le model poisoning, quand l’altération survient après l’entraînement du modèle.
Dans les deux cas, le résultat est le même. L’IA devient manipulable, voire dangereuse.
Mais comment les pirates s’y prennent-ils ?
Une récente étude conjointe de l’Institut Alan Turing, de l’Institut britannique de sécurité de l’IA et d’Anthropic montre qu’il suffit d’ajouter 250 fichiers malveillants parmi des millions de données pour altérer un grand modèle de langage.
Les techniques d’empoisonnement se divisent en deux grandes familles :
Les attaques ciblées (ou directes)
Elles visent à modifier le comportement du modèle dans une situation précise.
La méthode la plus connue s’appelle la backdoor (porte dérobée).
L’IA apprend alors à répondre différemment lorsqu’elle rencontre un mot-code particulier.
Par exemple, si un pirate ajoute un mot-clé secret dans une question, le modèle peut soudain répondre de manière insultante, biaisée ou dangereuse, tout en paraissant normal pour le reste du monde.
Et les attaques globales (ou non ciblées)
Les attaques non ciblées consistent à inonder le web de fausses informations pour que le modèle les intègre lors de son entraînement.
Si des milliers de pages affirment que manger de la laitue guérit le cancer, une IA non filtrée risque de reprendre cette absurdité comme un fait.
C’est ce qu’on appelle le topic steering ou l’empoisonnement par biais de contenu.
The #AI poisoning software "#Nightshade" has the ability to force the interpretation of "a dog" into a cat. But it also has a "bleed through effect" that spreads damage to related subjects. The poison accumulates, and the model breaks down, producing only noise. #aiart pic.twitter.com/CiZIPAZqA9
— Kristoffer Zetterstrand (@Zetterstrand) January 26, 2024
Attention aux risques et aux conséquences de l’empoisonnement de l’IA
L’AI poisoning n’est pas qu’un simple concept théorique. En janvier 2025, une étude publiée dans Nature Medicine a montré que remplacer seulement 0,001 % des données d’entraînement d’un modèle médical par de la désinformation suffisait à le rendre moins fiable.
Le vrai problème, c’est que les modèles vont conserver des performances apparentes normales.
D’autres chercheurs ont même créé un modèle volontairement compromis, baptisé PoisonGPT, pour prouver qu’une IA infectée pouvait diffuser de fausses informations en toute crédibilité.
Et entre risque de désinformation massive (fake news, théories biaisées, erreurs médicales) et vulnérabilités de cybersécurité, les risques sont énormes.
Ce qui veut dire qu’un modèle corrompu peut servir de porte d’entrée à des attaques pour atteinte à la confiance du public envers les IA génératives.
Mais l’AI Poisining peut aussi devenir un outil de défense
Ce qui est surprenant, c’est que certains artistes utilisent aujourd’hui le principe inverse pour se protéger contre les IA génératives.
Ils empoisonnent volontairement leurs œuvres numériques en y insérant des perturbations invisibles.
En effet, si une IA les copie pour s’entraîner, elle produira ensuite des images déformées ou inutilisables.
C’est une stratégie défensive qui illustre à quel point le débat sur la propriété des données et la sécurité des modèles est en train d’évoluer.
En tout cas, l’AI poisoning rappelle que les IA ne sont pas infaillibles. Elles ne valent que par la qualité et la fiabilité des données qu’elles consomment.
Et derrière chaque algorithme brillant, il y a un risque d’infection silencieuse. Et la question n’est plus de savoir si cela arrivera, mais quand.
- Partager l'article :

