in

Grok 4.1, xAI aurait-il réussi à développer un modèle d’IA « anti-hallucination » ?

Grok 4.1 sans hallucinations

Coincé entre le lancement récent de ChatGPT 5.1 et l’arrivée imminente de Gemini 3.0 Pro, xAI tente un coup de poker stratégique. L’entreprise d’Elon Musk déploie Grok 4.1, une mise à jour qui mise tout sur la fiabilité factuelle, l’anti-hallucinations et le raisonnement émotionnel.

Le timing est chirurgical. Alors que le monde de la tech a encore les yeux rivés sur les prouesses de ChatGPT 5.1 et retient son souffle avant la conférence Google prévue cette semaine pour Gemini 3, xAI a décidé d’occuper le terrain médiatique.

Depuis ce matin, les abonnés Premium+ sur X (anciennement Twitter) ont accès à Grok 4.1, une itération qui promet de corriger le plus grand défaut des IA génératives : le mensonge.

YouTube video

Une stratégie à deux têtes : penseur vs rapide

Pour cette version 4.1, xAI abandonne l’approche du modèle unique pour proposer deux déclinaisons spécialisées, testées discrètement depuis le 1er novembre :

  • Grok 4.1 Thinking (nom de code : Quasarflux) : c’est le poids lourd de la gamme. Il prend le temps de « raisonner » avant de formuler une réponse. Selon xAI, ce modèle s’empare de la couronne du classement LMArena Text avec un score Elo de 1483, dépassant le (désormais ancien) Gemini 2.5 Pro.
  • Grok 4.1 Non-Thinking (nom de code : Tensor) : optimisé pour la vitesse, ce modèle « allégé » surprend par sa performance, affichant un score de 1465, suffisant pour devancer la plupart des concurrents actuels sur des tâches rapides.

La fin des « hallucinations » avec Grok 4.1?

C’est en tout cas la promesse phare d’Elon Musk. Et Grok 4.1 est une IA qui ne fabule pas. De vous à moi, l faudrait tout de même faire des tests pour le prouver.

Les modèles de langage ont une tendance naturelle à inventer des faits (hallucinations) lorsqu’ils ne connaissent pas la réponse.

xAI affirme avoir résolu une grande partie du problème grâce à un entraînement intensif sur des recherches d’informations réelles.

Les chiffres avancés sont audacieux : le taux d’erreur factuelle aurait chuté de 9,89 % sur la version précédente à seulement 2,97 % sur Grok 4.1 (selon le test FActScore).

Si cela se confirme à l’usage, Grok deviendrait l’outil le plus fiable pour la recherche documentaire.

Le quotient émotionnel de Grok est en hausse, mais les faiblesses persistantes

Au-delà de la logique pure, Grok 4.1 se veut plus humain. Sur le benchmark EQ-Bench, qui mesure l’intelligence émotionnelle et l’empathie, le modèle explose son propre record (1586 points contre 1206 auparavant).

Cependant, le tableau n’est pas parfait. Les documents techniques révèlent que si Grok excelle dans l’assistance technique, il reste en retrait face à ChatGPT sur le raisonnement complexe multi-étapes.

De plus, sa résistance aux « prompt injections » (tentatives de piratage par le texte) se situe dans la moyenne du marché, sans égaler les meilleures défenses d’OpenAI ou d’Anthropic.

En tout cas, Grok 4.1 est d’ores et déjà déployé pour les utilisateurs payants du réseau social X. Pour les développeurs, xAI adopte une stratégie tarifaire agressive (5 $ par million de tokens) pour tenter de s’imposer comme une alternative viable avant que Google ne dégaine sa riposte avec Gemini 3 dans les jours à venir.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !