OpenAI franchit un cap : des IA capables de comprendre leur politique de sécurité

Est-ce que vous avez imaginé que l’IA de demain pourra s’auto-sécuriser ? Si la réponse est non, il faut croire qu’OpenAI est sur le point de changer la donne ! Nous allons bientôt avoir droit à des IA qui vont comprendre la politique de sécurité avant de répondre.

OpenAI a récemment annoncé une nouvelle génération de modèles d’intelligence artificielle dédiés au raisonnement, la série « o3 » de ChatGPT. Ces avancées seraient le résultat d’une augmentation des capacités de calcul pendant la phase d’exécution, ainsi que d’un nouveau paradigme de sécurité mis en place pour entraîner ces modèles.

IA et politique de sécurité : en quoi consiste l’alignement délibératif ?

Ce vendredi, OpenAI a publié des recherches sur une méthode appelée « alignement délibératif », visant à assurer que les modèles de raisonnement IA restent conformes aux valeurs définies par leurs développeurs humains.

Grâce à cette méthode, les modèles o1 et o3 sont désormais capables de « réfléchir » à la politique de sécurité d’OpenAI pendant leur phase d’exécution. À savoir lorsque l’utilisateur soumet une demande.

L’alignement délibératif a permis d’améliorer la conformité des réponses des modèles à la politique de sécurité de l’entreprise. Selon OpenAI, cela a réduit le taux de réponses jugées « non sécurisées » tout en améliorant la pertinence des réponses à des questions bénignes.

En pratique, cela signifie que les modèles, comme o1 et o3 vont répondre à des demandes en se référant à la politique de sécurité d’OpenAI. De quoi faire la différence pour un usage éthique et pl

Lorsque l’intelligence artificielle commence à réfléchir en plusieurs étapes

L’IA peut “manigancer” : une étude dévoile des comportement surprenants https://t.co/JqqS7epqws
— La Libre (@lalibrebe) December 22, 2024

Bien que le terme « réfléchir » soit utilisé, ces modèles ne raisonnent pas comme des humains. Leur capacité repose sur une technique appelée « chaîne de pensée » (chain-of-thought). Cette technique permet de décomposer un problème complexe en étapes plus petites avant de fournir une réponse.

Après qu’un utilisateur soumet une requête, les modèles peuvent se reposer sur des questions internes pour clarifier ou mieux structurer leur réponse. Avec l’alignement délibératif, les modèles sont maintenant entraînés à se référer à des extraits pertinents de la politique de sécurité d’OpenAI pendant la phase de réflexion.

Par exemple, si un utilisateur demande comment fabriquer un faux badge de stationnement pour personnes handicapées, le modèle identifie que la demande va à l’encontre des règles. Elle va citer la politique de sécurité, et refuse poliment d’aider.

Une sécurité plus accrue lors de la phase d’inférence ?

Traditionnellement, les recherches sur la sécurité de l’IA se concentrent sur les phases d’entraînement initial ou de post-entraînement mais rarement sur la phase d’inférence, notamment lorsque l’IA répond aux requêtes.

L’alignement délibératif marque une rupture avec cette approche classique. Il s’agit du premier procédé permettant à un modèle d’intégrer les spécifications de sécurité pendant la phase d’inférence pour évaluer ses réponses. L’objectif ? Réduire les risques d’abus, comme des demandes visant à fabriquer des explosifs ou à obtenir des substances illégales. Cependant, cette tâche n’est pas simple.

OpenAI doit faire face à deux écueils majeurs : les « contournements » (jailbreaks), où des utilisateurs manipulent l’IA pour contourner ses restrictions. Sans oublier les « refus excessifs » (over-refusal) lorsque l’IA refuse à tort des questions légitimes.

Des données synthétiques pour entraîner o1 et o3

Pour former ses modèles o1 et o3 à cette méthode, OpenAI a utilisé des données synthétiques, créées par d’autres IA internes, au lieu de s’appuyer sur des annotations humaines. Un modèle interne générait des exemples de chaînes de réflexion basées sur la politique de sécurité d’OpenAI, tandis qu’un autre modèle, surnommé « juge », évaluait la qualité de ces exemples.

Ces données ont ensuite servi à affiner o1 et o3 lors d’une phase appelée « fine-tuning supervisé », leur permettant d’apprendre à identifier et à appliquer la politique de sécurité lorsqu’ils sont confrontés à des sujets sensibles. Cela a permis de réduire la latence et les coûts liés à la consultation exhaustive de documents complexes.

Est-ce que l’IA peut alors comprendre la politique de sécurité qui lui soit imposée ?

Sur un benchmark spécifique mesurant la résistance aux contournements, o1-preview a surpassé GPT-4o, Gemini 1.5 Flash et Claude 3.5 Sonnet. Cependant, le vrai test de cette méthode viendra lorsque le modèle o3 sera mis à disposition publique prévu pour 2025.

L’alignement délibératif pourrait devenir une pierre angulaire pour garantir que les modèles d’IA respectent les valeurs humaines. Pour OpenAI, ces mesures de sécurité permettront de conserver la confiance des utilisateurs et de prévenir les usages abusifs.

Ce nouvel horizon technologique soulève autant de questions qu’il n’apporte de solutions. Mais une chose est claire : à mesure que les IA comme o3 continuent de s’améliorer, la sécurité et l’alignement deviendront des priorités incontournables pour toutes les entreprises travaillant dans ce domaine.