J'ai torturé GPT-5.2 avec 14 tests impitoyables et voici pourquoi vous allez regretter votre abonnement

OpenAI nous vend GPT-5.2 comme la série de modèles la plus performante à ce jour. Vraiment ? Mais après avoir soumis l’IA à ma batterie de tests habituelle (10 pour le texte, 4 pour l’image), le verdict est enfin tombé. Entre régressions incompréhensibles en code et nouvelles habitudes agaçantes, voici pourquoi cette mise à jour a un goût amer.

Une IA plus forte, plus rapide, plus intelligente, c’est ce que Sam Altman, PDG d’OpenAI, nous a promis pour finir en beauté cette année.

Mais lorsqu’on gratte le vernis marketing d’OpenAI, la réalité de GPT-5.2 est bien plus nuancée.

Pour savoir si cela vaut réellement les 20 $ par mois de l’abonnement ChatGPT Plus, je l’ai passé au crible.

Spoiler : le résultat final tient dans un mouchoir de poche face à la version précédente.

L’intelligence pure : brillant, mais parfois étourdi à mon avis

Commençons par ce qui fâche (un peu). Pour le premier test, j’ai demandé un résumé des inondations dans l’État de Washington en utilisant Yahoo News.

Résultat : 9/10. Le résumé est bon, mais l’IA a triché en allant piocher des infos sur Axios en plus de Yahoo. Un excès de zèle qui lui coûte un point.

Heureusement, la machine se rattrape vite sur la pédagogie. Lorsqu’il s’agit d’expliquer le constructivisme éducatif à un enfant de 5 ans, c’est un sans-faute, donc je lui donne un 10/10.

La réponse est claire, concise, parfaitement adaptée. Même constat pour la logique pure : face à une suite de nombres mystère (la séquence de Fibonacci), GPT-5.2 a reconnu le motif instantanément sans que je lui donne l’indice. Encore un 10/10.

We’ve been testing GPT-5.2 for the past week, and it just set a new high-water mark on our internal evals.

It’s exceptionally strong at following precise instructions across complex, multi-turn agentic workflows—especially with large amounts of context.

Here’s Charlie running… pic.twitter.com/4gaT9zRfLp
— Charlie (@charlielabs_ai) December 11, 2025

Mais il y a une nouveauté qui rend fou dans GPT-5.2

C’est ici que l’expérience utilisateur se dégrade étrangement. J’ai soumis à l’IA deux tests lourds : une analyse littéraire des thèmes de Game of Thrones et une traduction complexe anglais-latin avec contexte culturel.

Dans les deux cas, l’IA s’est arrêtée net. Elle a répondu : « Je suis prêt à répondre, mais cette demande nécessiterait une explication plus longue… J’attends votre signal ».

Pardon ? Je paie pour une IA qui travaille, pas pour une IA qui demande la permission de travailler ! C’est une friction inutile.

Mais encore une fois, une fois le feu vert donné, les réponses étaient excellentes et complètes (10/10 sur le fond), mais cette nouvelle timidité procédurale est franchement agaçante pour la productivité.

Il y a pire ! Un gros crash qui va faire fuir les Codeurs

C’est la douche froide de ce banc d’essai. Le test de codage (validation d’expressions régulières pour des devises) a tourné au fiasco.

Là où GPT-5.1 (la version précédente) réussissait l’exercice, GPT-5.2 s’effondre avec un score de 5/10. Le code généré contenait deux erreurs critiques :

Il interprète une absence de saisie comme une valeur 0 $ au lieu de renvoyer une erreur.
Pire, il ne vérifie pas le type de données. Si vous lui envoyez du texte au lieu de chiffres, la fonction plante. C’est une régression majeure. Pour un outil censé être l’assistant ultime des développeurs, fournir un code bugué et non sécurisé est impardonnable.

Du génie et des oublis dans la créativité

Pour détendre l’atmosphère, j’ai testé ses capacités d’écrivain. Et là, chapeau. GPT-5.2 m’a pondu une nouvelle de 3 286 mots absolument délicieuse (10/10). C’est quand même rare de voir une IA tenir la distance sur un format aussi long sans perdre le fil.

Côté organisation, pour un itinéraire de voyage à Boston, l’IA assure l’essentiel (mélange tech/histoire respecté).

Par contre, elle a tendance à oublier de recommander des restaurants ou de chiffrer le budget. Un assistant de voyage qui ne vous dit pas combien ça coûte ni où manger, c’est un assistant incomplet. Pour ce défaut, GPT-5.2 mérite un 8/10.

Enfin, sur le plan humain, le test de soutien émotionnel (conseils pour un entretien d’embauche) est validé (10/10).

C’est bref, percutant et pertinent. L’IA semble d’ailleurs privilégier la concision dans cette version, ce qui n’est pas plus mal.

Et les images alors ?

J’ai terminé par 4 défis visuels.

L’Hélicarrier Marvel : comme ses concurrents, il n’arrive pas à orienter les ventilateurs correctement. (3/5)
Robot Dieselpunk : Une réussite esthétique totale. (5/5)
Yankee à la cour du Roi Arthur : un style pictural intéressant, cohérent, même si on s’attendait à du photoréalisme. (5/5)
Retour vers le Futur : les éléments sont là, mais l’échelle des personnages est ratée. (4/5)

Verdict Final : 92/100 (C’est tout ?)

Au total, GPT-5.2 obtient 92 points sur 100 pour le texte et 17 sur 20 pour l’image. C’est… un seul petit point de plus que GPT-5.1 pour le texte, et un point de moins pour l’image.

Si vous voulez mon avis, je pense que cette mise à jour laisse un goût d’inachevé. La régression en codage est inquiétante pour les pros, et la manie de l’IA de demander la permission avant de répondre à des questions complexes est une perte de temps.

En revanche, si vous êtes un écrivain, foncez. Si vous êtes développeur, gardez votre ancienne version, je vous recommande même un autre modèle comme Devstral 2 et Devstral Small 2 de Mistral qui coûtent 10 fois moins cher que ChatGPT et Claude.

Partager l'article :