in

Meta veut en finir avec les jailbreaks IA grâce à ce framewok

protection contre jailbreak IA

Comme les cyber-risques ne cessent de se multiplier, Meta a annoncé un framework open source qui devrait permettre de protéger les systèmes d’IA. Répondant au nom de LlamaFirewall et annoncé mardi dernier, ce framework va bloquer plusieurs types de menaces telles que les jailbreaks de l’IA, le code non sécurisé, ainsi que les injections.

D’après ce billet de blog de Meta, le projet consiste à déployer trois garde-fous. Notamment CodeShield, Agent Alignment Checks et PromptGuard 2 dont voici les détails.

Youtube video

Trois mesures de sécurité de Llama entrent en action

CodeShield, le premier garde-fou, concerne davantage la génération de code. Il consiste en un moteur d’analyse statique dont le but est d’empêcher un agent IA de générer du code dangereux ou non sécurisé.

Quant à PromptGuard 2, il fait référence à un système de détection des tentatives de jailbreak et d’injections rapides de l’IA.

Pour ce qui est de l’Agent Alignment Checks, il va détecter les éventuels scénarios de détournement en inspectant le raisonnement d’un agent IA.

Tout compte fait, la conception de LlamaFirewall a pour objectif de créer un cadre de protection en temps réel pour les applications LLM.

Sur son site web, Meta indique que LlamaFirewall repose sur une architecture modulaire. À ce titre, les utilisateurs, dont les ingénieurs et les développeurs, pourront facilement élaborer des mesures de protection stratifiées.

Une fois les protections mises en place, elles s’appliquent directement à l’ensemble du processus de traitement. Donc depuis l’acquisition des données brutes jusqu’à la production des résultats finaux.

Deux autres mises à jour pour éviter les jailbreaks de l’IA

Outre LlamaFirewall, Meta a également déployé des mises à jour pour CyberSecEval et Llama Guard.

Ces deux versions devraient permettre de détecter plusieurs types de contenu violent. Mais aussi d’évaluer les capacités défensives des systèmes d’IA.

En ce qui concerne CyberSecEval en particulier, il peut mesurer la capacité de réparation automatique des vulnérabilités d’un LLM via le benchmark AutoPatchBench.

Son fonctionnement repose en effet sur l’évaluation des capacités d’un agent LLM, ou précisément les outils de réparation de vulnérabilité.

En gros, il s’agit d’une mise à jour dont le but est de comprendre les limites des approches basées sur l’intelligence artificielle pour pouvoir apporter les correctifs nécessaires.

Youtube video

Un autre programme pour lutter contre le phishing et le vol d’identité

Les développeurs et les organisations partenaires de Meta auront aussi une part du gâteau avec le lancement de Llama for Defenders, un programme leur permettant d’accéder à des solutions d’IA ouvertes.

L’objectif de ce déploiement serait d’offrir aux entreprises la possibilité de détecter un contenu généré par intelligence artificielle que les hackers utilisent pour orchestrer des attaques de phishing et de vol d’identité.

J’espère qu’avec toutes ces mises à jour et tous ces programmes, on pourra mettre fin aux jailbreaks de l’IA et à toutes les formes de piratage.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *