Comme les cyber-risques ne cessent de se multiplier, Meta a annoncé un framework open source qui devrait permettre de protéger les systèmes d’IA. Répondant au nom de LlamaFirewall et annoncé mardi dernier, ce framework va bloquer plusieurs types de menaces telles que les jailbreaks de l’IA, le code non sécurisé, ainsi que les injections.
D’après ce billet de blog de Meta, le projet consiste à déployer trois garde-fous. Notamment CodeShield, Agent Alignment Checks et PromptGuard 2 dont voici les détails.
Trois mesures de sécurité de Llama entrent en action
CodeShield, le premier garde-fou, concerne davantage la génération de code. Il consiste en un moteur d’analyse statique dont le but est d’empêcher un agent IA de générer du code dangereux ou non sécurisé.
Quant à PromptGuard 2, il fait référence à un système de détection des tentatives de jailbreak et d’injections rapides de l’IA.
Pour ce qui est de l’Agent Alignment Checks, il va détecter les éventuels scénarios de détournement en inspectant le raisonnement d’un agent IA.
Tout compte fait, la conception de LlamaFirewall a pour objectif de créer un cadre de protection en temps réel pour les applications LLM.
Sur son site web, Meta indique que LlamaFirewall repose sur une architecture modulaire. À ce titre, les utilisateurs, dont les ingénieurs et les développeurs, pourront facilement élaborer des mesures de protection stratifiées.
Une fois les protections mises en place, elles s’appliquent directement à l’ensemble du processus de traitement. Donc depuis l’acquisition des données brutes jusqu’à la production des résultats finaux.
At LlamaCon 2025, Meta announced:
— Rowan Cheung (@rowancheung) April 30, 2025
—Standalone Meta AI app with a social 'discover' feed to take on ChatGPT
—Llama API free preview
—Lama Guard 4 (12B), LlamaFirewall, and Prompt Guard
—Colab with Groq and Cerebras for faster inferencepic.twitter.com/29BPmuSToP
Deux autres mises à jour pour éviter les jailbreaks de l’IA
Outre LlamaFirewall, Meta a également déployé des mises à jour pour CyberSecEval et Llama Guard.
Ces deux versions devraient permettre de détecter plusieurs types de contenu violent. Mais aussi d’évaluer les capacités défensives des systèmes d’IA.
En ce qui concerne CyberSecEval en particulier, il peut mesurer la capacité de réparation automatique des vulnérabilités d’un LLM via le benchmark AutoPatchBench.
Son fonctionnement repose en effet sur l’évaluation des capacités d’un agent LLM, ou précisément les outils de réparation de vulnérabilité.
En gros, il s’agit d’une mise à jour dont le but est de comprendre les limites des approches basées sur l’intelligence artificielle pour pouvoir apporter les correctifs nécessaires.
Un autre programme pour lutter contre le phishing et le vol d’identité
Les développeurs et les organisations partenaires de Meta auront aussi une part du gâteau avec le lancement de Llama for Defenders, un programme leur permettant d’accéder à des solutions d’IA ouvertes.
L’objectif de ce déploiement serait d’offrir aux entreprises la possibilité de détecter un contenu généré par intelligence artificielle que les hackers utilisent pour orchestrer des attaques de phishing et de vol d’identité.
J’espère qu’avec toutes ces mises à jour et tous ces programmes, on pourra mettre fin aux jailbreaks de l’IA et à toutes les formes de piratage.
- Partager l'article :

