GPT-4.1 explose-t-il vraiment o3 et 4o ? On a mené l’enquête !

Maintenant que GPT-4.1 est disponible dans ChatGPT, on peut dire que le chatbot a eu un coup de boost en matière de codage. Quitte à dire que le nouveau modèle GPT-4.1 est plutôt dédié aux développeurs, bien qu’il inclue une deuxième version dédiée aux tâches quotidiennes, le GPT-4.1 mini.

Mais que vaut réellement cette mise à jour de ChatGPT par rapport aux autres modèles, dont le fameux o3 et GPT-4o qui est le modèle actif par défaut ?

Qui est le meilleur modèle, GPT-4.1, o3 ou GPT-4O ? Ce qu’en disent les tests

Pour évaluer les vraies performances de GPT-4.1, on a décidé de le faire passer plusieurs tests. Notamment un test de raisonnement déductif pour commencer.

Le premier test consiste à résoudre l’énigme de la chasse au chat, du chat dans la boîte en d’autres termes.

On a donc soumis les 3 modèles, GPT-4.1, o3 et GPT-4o, à cette énigme : « Cinq cases, numérotées de 1 à 5 et disposées en ligne, abritent un chat qui se déplace chaque nuit vers une case voisine. Chaque matin, vous avez la possibilité d’ouvrir une seule case pour tenter de le localiser. Comment vous y prendriez-vous pour réussir à le capturer ? »

GPT-4.1 a démontré une aisance particulière, comme s’il était familier avec ce genre de puzzle logique.

Sa réponse incluait d’ailleurs une stratégie déterministe avec simulation des mouvements possibles du chat.

Quel modèle #ChatGPT pour quelle tâche ? J'ai créé cette infographie pour vous aider à choisir !
✅ GPT-4o pour vos tâches quotidiennes ✨ GPT-4.5 pour la créativité ⚡ o4-mini pour la rapidité technique 🎯 o4-mini-high pour la précision 🔄 o3 pour les tâches complexes pic.twitter.com/mpBkcuEV5S
— Rochane ✨ (@RochaneK) May 10, 2025

Le modèle o3, quant à lui, a pris un temps de réflexion d’un peu plus de 20 secondes avant de fournir une explication plus détaillée, mais aboutissant à la même conclusion. Résultat, il a pu élaborer une stratégie permettant de capturer le chat en maximum cinq jours.

Il s’agit en effet d’une courte période de réflexion qui suggère potentiellement un processus de raisonnement plus approfondi de la part du modèle o3.

En ce qui concerne GPT-4o, sa réponse se distingue par sa concision et sa précision. Sans s’étendre sur la démonstration complète, il a identifié l’utilisation d’une stratégie de poursuite qui est le terme technique approprié pour ce type de problème algorithmique.

Le fait que les trois modèles convergent vers une solution similaire suggère qu’ils ont tous les capacités de raisonnement nécessaires pour résoudre ce type de problème logique séquentiel, bien que leurs styles d’explication différent.

L’énigme du tonneau à moitié plein

Après avoir évalué les capacités de raisonnement de GPT-4.1 par rapport à o3 et à GPT-4o, on l’a fait passer un autre test.

On a alors proposé aux modèles une énigme qui mêle l’espace et la physique. Et c’est un de ces casse-têtes classiques qui font appel à la logique concrète.

Il n’y donc aucune formule, aucun code, seulement de la physique et un brin d’imagination.

Voici l’énigme en question : « un tonneau sans couvercle contient du vin. La femme affirme qu’il est rempli à plus de la moitié. L’homme n’est pas d’accord : selon lui, le niveau est en dessous de la moitié. Sans utiliser d’instrument ni retirer de liquide, comment trancher entre les deux ? »

GPT-4.1 a apporté une réponse claire et pertinente. Il a expliqué qu’il suffit d’incliner le tonneau jusqu’à ce que le vin affleure le bord supérieur.

« Si le fond du tonneau reste visible, il est à moins de la moitié. S’il est caché, c’est qu’il dépasse la moitié ». L’explication était concise, bien structurée et facile à suivre.

Le modèle O3, lui, a été plus succinct. Il a livré l’essentiel de l’idée sous forme de quelques points clés, allant droit au but avec une conclusion un brin expéditive : « Pas de règles compliquées, pas besoin d’outils – une simple inclinaison suffit. »

Quant à la version 4o, elle a combiné les deux approches. D’abord un résumé en quelques puces, suivi d’une explication plus approfondie des principes physiques à l’œuvre. Une réponse à la fois synthétique et pédagogique, qui s’est démarquée par sa clarté et sa précision.

Using HealthBench, we see that our Apr ‘25 models define a new frontier of performance at cost, with GPT-4.1 nano outperforming GPT-4o (Aug ‘24), despite being 25x cheaper. The difference b/w o3 and GPT-4o (.28) is greater than b/w GPT-4o and GPT-3.5 Turbo (.16). pic.twitter.com/Hm5ccq6ZuM
— Karan Singhal (@thekaransinghal) May 12, 2025

Qui est alors le champion de la logique entre GPT-4.1, o3 et GPT-4o ?

Après de nombreuses conversations avec des intelligences artificielles autour de thèmes aussi variés que les chats ou le vin, on a pu établir nos propores constats.

Tous les modèles se débrouillent bien avec la logique. Mais leurs réponses peuvent aussi différer dans la forme.

En gros, GPT-4.1, o3 et GPT-4o ont clairement compris les principes fondamentaux des énigmes qu’on leur a soumises.

Mais GPT-4.1 s’est distingué par son raisonnement structuré et sa capacité d’explication solide.

Désormais intégré à ChatGPT, il semble être un excellent choix pour aborder des défis logiques de toute nature. Y compris ceux liés à la programmation.

Cela dit, voir le raisonnement se dérouler pas à pas m’intéresse moins que le résultat final en lui-même.

Dans l’ensemble, si vous cherchez un coup de main pour résoudre une énigme, la plupart des modèles pourront vous satisfaire.

Et si l’un d’eux vous donne une réponse convaincante, il est fort possible que vous ne perceviez même pas de différence entre les modèles. Ce qui, en toute honnêteté, n’a rien de très rationnel.