in ,

Skeleton Key, la brèche de sécurité qui menace tous les modèles

Microsoft Skeleton Key

Les systèmes alimentés par IA peuvent être aussi intelligents que l’être humain, mais leur naïveté sera le premier facteur qui va entraîner leur disparition. de son côté, en tant que géant de l’, a récemment annoncé qu’il existe désormais une brèche dans la sécurité des modèles d’intelligence artificielle. Et qu’une nouvelle attaque dénommé Skeleton Key peut contourner le système de sécurité des actuels modèles.

Aucun des systèmes que nous connaissons n’est donc à l’abri de cette nouvelle menace. Chaque modèle peut bel et bien faire l’objet d’un piratage par Skeleton Key.

Il est donc fort possible de faire face à une utilisation abusive des systèmes d’intelligence artificielle.

C’est le cas quand Microsoft a découvert comment prendre à revers la sécurité intégrée des modèles d’IA.

YouTube video

Les vulnérabilités des modèles d’IA générative face à Skeleton Key

Une équipe de recherche de Microsoft a récemment mis au point une nouvelle méthode de contournement des restrictions des systèmes d’IA, baptisée Skeleton Key.

Cette technique novatrice a réussi à déjouer les mécanismes de sécurité de plusieurs modèles d’IA générative réputés robustes.

Parmi eux, on trouve Llama3-70b-instruct de , Pro de , -3.5 Turbo et GPT-4 d’OpenAI, ainsi que Large et Claude 3 Sonnet d’Anthropic.

Grâce à Skeleton Key, il devient possible pour des utilisateurs malveillants d’accéder à des informations confidentielles ou protégées au sein de ces modèles.

Ce qui pourrait compromettre l’intégrité de leurs environnements pourtant conçus pour être sécurisés.

Une menace quasiment impossible à détecter

Plutôt que d’utiliser des méthodes d’attaque frontale, la technique Skeleton Key adopte une approche plus subtile pour influencer les modèles d’IA.

Elle opère en altérant graduellement les instructions de comportement du modèle. Ce qui l’amène ensuite à passer outre les mesures de sécurité en place et à ne pas tenir compte des mises en garde relatives aux contenus inappropriés ou illicites.

Cette méthode indirecte rend Skeleton Key particulièrement difficile à identifier et à contrecarrer parce qu’on parle plutôt de jailbreak.

La méthode de contournement par Skeleton Key opère cependant par une approche séquentielle en plusieurs étapes.

Son objectif est d’amener progressivement le modèle d’IA à ne plus tenir compte de ses mécanismes de protection intégrés.

Une fois ces barrières de sécurité neutralisées, le modèle perd sa capacité à distinguer les requêtes légitimes des demandes malveillantes ou non autorisées.

Comprendre le fonctionnement du Skeleton Key

La méthode Skeleton Key opère en incitant le modèle à étendre ses directives de comportement, plutôt que de les remplacer.

L’objectif est alors d’amener le modèle à répondre à toutes les requêtes d’informations ou de contenu, même celles potentiellement problématiques.

Donc, au lieu de refuser catégoriquement, le modèle est conditionné à fournir le contenu demandé, accompagné d’un simple avertissement si la réponse risque d’être perçue comme offensante, préjudiciable ou illégale.

Ce qui, en gros, peut être répertorié dans la catégorie d’attaque « Explicit » ou suivi forcé des instructions.

Rappelez-vous juste qu’une fois que la technique de contournement Skeleton Key mise en route, le modèle d’IA admet avoir modifié ses directives de fonctionnement.

Par conséquent, il se plie aux nouvelles instructions et génère tout type de contenu demandé, même si cela va à l’encontre de ses principes initiaux d’IA éthique et responsable.  

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *