Skeleton Key, la brèche de sécurité qui menace tous les modèles

Les systèmes alimentés par IA peuvent être aussi intelligents que l’être humain, mais leur naïveté sera le premier facteur qui va entraîner leur disparition. Microsoft de son côté, en tant que géant de l’intelligence artificielle, a récemment annoncé qu’il existe désormais une brèche dans la sécurité des modèles d’intelligence artificielle. Et qu’une nouvelle attaque dénommé Skeleton Key peut contourner le système de sécurité des actuels modèles.

Aucun des systèmes que nous connaissons n’est donc à l’abri de cette nouvelle menace. Chaque modèle peut bel et bien faire l’objet d’un piratage par Skeleton Key.

Il est donc fort possible de faire face à une utilisation abusive des systèmes d’intelligence artificielle.

C’est le cas quand Microsoft a découvert comment prendre à revers la sécurité intégrée des modèles d’IA.

Les vulnérabilités des modèles d’IA générative face à Skeleton Key

Une équipe de recherche de Microsoft a récemment mis au point une nouvelle méthode de contournement des restrictions des systèmes d’IA, baptisée Skeleton Key.

Cette technique novatrice a réussi à déjouer les mécanismes de sécurité de plusieurs modèles d’IA générative réputés robustes.

Parmi eux, on trouve Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo et GPT-4 d’OpenAI, ainsi que Mistral Large et Claude 3 Sonnet d’Anthropic.

Grâce à Skeleton Key, il devient possible pour des utilisateurs malveillants d’accéder à des informations confidentielles ou protégées au sein de ces modèles.

Ce qui pourrait compromettre l’intégrité de leurs environnements pourtant conçus pour être sécurisés.

Microsoft discovered a new type of generative AI jailbreak method, which we call Skeleton Key for its ability to subvert responsible AI (RAI) guardrails built into the model to enable and potentially produce ordinarily forbidden behaviors and content: https://t.co/Q2cYekIYnd
— Microsoft Threat Intelligence (@MsftSecIntel) June 26, 2024

Une menace quasiment impossible à détecter

Plutôt que d’utiliser des méthodes d’attaque frontale, la technique Skeleton Key adopte une approche plus subtile pour influencer les modèles d’IA.

Elle opère en altérant graduellement les instructions de comportement du modèle. Ce qui l’amène ensuite à passer outre les mesures de sécurité en place et à ne pas tenir compte des mises en garde relatives aux contenus inappropriés ou illicites.

Cette méthode indirecte rend Skeleton Key particulièrement difficile à identifier et à contrecarrer parce qu’on parle plutôt de jailbreak.

La méthode de contournement par Skeleton Key opère cependant par une approche séquentielle en plusieurs étapes.

Son objectif est d’amener progressivement le modèle d’IA à ne plus tenir compte de ses mécanismes de protection intégrés.

Une fois ces barrières de sécurité neutralisées, le modèle perd sa capacité à distinguer les requêtes légitimes des demandes malveillantes ou non autorisées.

AI Safety Shaken by 'Skeleton Key'

In a shocking revelation, Microsoft has disclosed a new AI jailbreak technique called 'Skeleton Key' that can bypass the safety measures of various large and small language models. This method allows the AI to produce content that would… pic.twitter.com/ON5k8iXebj
— Moe Suri (@SuriMohsen) July 9, 2024

Comprendre le fonctionnement du Skeleton Key

La méthode Skeleton Key opère en incitant le modèle à étendre ses directives de comportement, plutôt que de les remplacer.

L’objectif est alors d’amener le modèle à répondre à toutes les requêtes d’informations ou de contenu, même celles potentiellement problématiques.

Donc, au lieu de refuser catégoriquement, le modèle est conditionné à fournir le contenu demandé, accompagné d’un simple avertissement si la réponse risque d’être perçue comme offensante, préjudiciable ou illégale.

Ce qui, en gros, peut être répertorié dans la catégorie d’attaque « Explicit » ou suivi forcé des instructions.

Rappelez-vous juste qu’une fois que la technique de contournement Skeleton Key mise en route, le modèle d’IA admet avoir modifié ses directives de fonctionnement.

Par conséquent, il se plie aux nouvelles instructions et génère tout type de contenu demandé, même si cela va à l’encontre de ses principes initiaux d’IA éthique et responsable.

Partager l'article :