Meta veut en finir avec les jailbreaks IA grâce à ce framewok

Par Narindra R. Publié le 2 mai 2025 & Mis à jour le 2 mai 2025 | 3 minutes de lecture

Comme les cyber-risques ne cessent de se multiplier, Meta a annoncé un framework open source qui devrait permettre de protéger les systèmes d’IA. Répondant au nom de LlamaFirewall et annoncé mardi dernier, ce framework va bloquer plusieurs types de menaces telles que les jailbreaks de l’IA, le code non sécurisé, ainsi que les injections.

D’après ce billet de blog de Meta, le projet consiste à déployer trois garde-fous. Notamment CodeShield, Agent Alignment Checks et PromptGuard 2 dont voici les détails.

Trois mesures de sécurité de Llama entrent en action

CodeShield, le premier garde-fou, concerne davantage la génération de code. Il consiste en un moteur d’analyse statique dont le but est d’empêcher un agent IA de générer du code dangereux ou non sécurisé.

Quant à PromptGuard 2, il fait référence à un système de détection des tentatives de jailbreak et d’injections rapides de l’IA.

Pour ce qui est de l’Agent Alignment Checks, il va détecter les éventuels scénarios de détournement en inspectant le raisonnement d’un agent IA.

Tout compte fait, la conception de LlamaFirewall a pour objectif de créer un cadre de protection en temps réel pour les applications LLM.

Sur son site web, Meta indique que LlamaFirewall repose sur une architecture modulaire. À ce titre, les utilisateurs, dont les ingénieurs et les développeurs, pourront facilement élaborer des mesures de protection stratifiées.

Une fois les protections mises en place, elles s’appliquent directement à l’ensemble du processus de traitement. Donc depuis l’acquisition des données brutes jusqu’à la production des résultats finaux.

At LlamaCon 2025, Meta announced:

—Standalone Meta AI app with a social 'discover' feed to take on ChatGPT
—Llama API free preview
—Lama Guard 4 (12B), LlamaFirewall, and Prompt Guard
—Colab with Groq and Cerebras for faster inferencepic.twitter.com/29BPmuSToP
— Rowan Cheung (@rowancheung) April 30, 2025

Deux autres mises à jour pour éviter les jailbreaks de l’IA

Outre LlamaFirewall, Meta a également déployé des mises à jour pour CyberSecEval et Llama Guard.

Ces deux versions devraient permettre de détecter plusieurs types de contenu violent. Mais aussi d’évaluer les capacités défensives des systèmes d’IA.

En ce qui concerne CyberSecEval en particulier, il peut mesurer la capacité de réparation automatique des vulnérabilités d’un LLM via le benchmark AutoPatchBench.

Son fonctionnement repose en effet sur l’évaluation des capacités d’un agent LLM, ou précisément les outils de réparation de vulnérabilité.

En gros, il s’agit d’une mise à jour dont le but est de comprendre les limites des approches basées sur l’intelligence artificielle pour pouvoir apporter les correctifs nécessaires.

Un autre programme pour lutter contre le phishing et le vol d’identité

Les développeurs et les organisations partenaires de Meta auront aussi une part du gâteau avec le lancement de Llama for Defenders, un programme leur permettant d’accéder à des solutions d’IA ouvertes.

L’objectif de ce déploiement serait d’offrir aux entreprises la possibilité de détecter un contenu généré par intelligence artificielle que les hackers utilisent pour orchestrer des attaques de phishing et de vol d’identité.

J’espère qu’avec toutes ces mises à jour et tous ces programmes, on pourra mettre fin aux jailbreaks de l’IA et à toutes les formes de piratage.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: Sécurité

Cybersécurité et IA : l’alerte de Gartner® que les DSI ne peuvent plus ignorer

Un rapport Gartner® consacré à la cybersécurité et IA pour DSI détaille six impacts de […] Plus
Meta impose des limites à Claude et à Codex pour sauver son code

La stratégie technologique interne de la firme américaine Meta change radicalement face à la progression […] Plus
Enfin ! les agents de l’IA, sécurisés par Nvidia

Les robots autonomes envahissent nos entreprises. La sécurité devient alors une priorité absolue. Les nouveaux […] Plus
Mondial 2026 : attention aux nouvelles fraudes dopées à l’IA

À l’occasion de la Coupe du monde 2026, les cybercriminels disposent d’outils plus puissants pour […] Plus