OpenAI lance CriticGPT pour améliorer ChatGPT

OpenAI innove encore avec le développement de CriticGPT, un modèle d’IA conçu pour identifier et corriger les erreurs dans les réponses générées par ChatGPT. Cette avancée technologique représente un pas de plus vers l’amélioration des interactions homme-machine.

OpenAI, le laboratoire soutenu par Microsoft, a récemment publié un document révélateur intitulé « LLM Critics Help Catch LLM Bugs« . Ce document détaille une nouvelle approche pour améliorer les performances des modèles d’IA, notamment ChatGPT, par le biais d’une rétroaction renforcée obtenue à partir des critiques d’un modèle IA nommé CriticGPT.

Les modèles d’IA génératifs, tels que GPT-4, nécessitent une quantité massive de données pour leur formation initiale. Ils passent ensuite par un processus de raffinement appelé Apprentissage par Renforcement à partir de Retours Humains (RLHF). Ce processus fait généralement appel à des travailleurs humains, souvent embauchés via des plateformes de crowdsourcing, afin d’interagir avec les modèles et d’annoter leurs réponses.

La nécessité d’une IA critique

Avec l’augmentation des capacités des modèles, le RLHF devient moins efficace. Les formateurs humains ont de plus en plus de mal à identifier les réponses erronées. Pour pallier ce problème, OpenAI a développé CriticGPT, qui assiste les humains dans l’évaluation des réponses générées par ChatGPT. Selon OpenAI, l’aide de CriticGPT permet d’améliorer l’identification des erreurs de 60 % par rapport aux évaluations sans assistance.

Comparaison et résultats

Le papier publié révèle que les critiques générées par CriticGPT permettent de détecter plus d’erreurs insérées que celles effectuées par des humains qualifiés payés pour la révision de code. De plus, les critiques du modèle sont préférées aux critiques humaines plus de 80 % du temps. Ce qui souligne l’efficacité supérieure du soutien par IA dans le processus de rétroaction.

IA générative
RLHF (Reinforcement Learning from Human Feedback)

Limites et coûts

Bien que CriticGPT réduise le taux de « hallucinations » par rapport à des évaluations sans assistance IA, le taux d’erreur reste plus élevé que celui d’un formateur IA travaillant seul. Le document reconnaît la difficulté de trouver un juste équilibre entre la détection des bugs et la réduction des hallucinations. D’ailleurs, cet équilibre est crucial pour optimiser la performance globale des systèmes RLHF.

En somme, CriticGPT représente une avancée significative dans le domaine de l’intelligence artificielle. Ces progrès se manifestent par une plus grande précision des formateurs humains et des modèles d’IA. Toutefois, la recherche continue pour équilibrer efficacement les coûts et les bénéfices de l‘utilisation de l’IA dans les processus d’apprentissage renforcé.