Fiabilité des moteurs de recherche IA : les désastres en chiffres

Les systèmes d’intelligence artificielle, comme ChatGPT, Gemini et Claude AI, peuvent fournir des réponses à n’importe quelle question, ou presque. Mais récemment, on a eu droit à un autre type d’IA : les moteurs de recherches tels que Perplexity, Andy Search, Microsoft Copilot, Phind, Komo et You.com. Et oui, ces systèmes peuvent faire des recherches approfondies. Sauf que les résultats qu’ils fournissent peuvent contenir de fausses réponses.

Il a donc un vrai problème de précision avec des moteurs de recherches IA. Et selon une étude menée par Tow Center for Digital Journalism, le taux d’erreur de ces systèmes s’élève à plus de 60 %.

Pourtant, deux des chercheurs qui ont participé à ladite étude affirme qu’un Américain sur deux utilisent les moteurs de recherche IA en alternative aux outils traditionnels comme Google et Bing.

Pour ChatGPT Search particulièrement, le taux d’erreur s’élève à 67 %, contre 37 % pour Perplexity et 94 % pour Grok 3.

Les tests révèlent que les moteurs de recherche IA inventent des sources

Des tests ont donc été réalisés pour évaluer la précision et la fiabilité des réponses que génèrent ces moteurs de recherches alimentés par IA.

Les chercheurs ont alors sélectionné des sujets et ont demandé à ces moteurs de recherches IA de fournir le titre, l’éditeur, l’URL ainsi que la date de publication des articles.

Résultat : la majorité des modèles ont adopté un comportement inattendu et non professionnel.

Au lieu de refuser de répondre aux questions dont ils n’ont pas d’informations, ils généraient des spéculations, voire des réponses erronées.

En d’autres termes, il s’agit d’un comportement commun à tous les modèles que les chercheurs ont pu tester.

"Building on our previous research, the Tow Center for Digital Journalism conducted tests on eight generative search tools with live search features to assess their abilities to accurately retrieve and cite news content, as well as how they behave …"https://t.co/LDU9hfryCv
— Richard Ram (@richardram) March 15, 2025

Et ça ne concerne pas que les versions gratuites

Peut-être que ces chercheurs ont seulement testé les versions gratuites des moteurs de recherches d’OpenAI, de Perplexity et de xAI.

En bien non, même les versions payantes ne fournissent pas de réponses fiables. Pour Perplexity Pro, dont l’abonnement mensuel coûte 20 $, fournit même de fausses réponses plus souvent que ses homologues gratuits. Même cas pour Grok 3 tarifé à 40 $ par mois.

Malgré leurs performances supérieures dans la résolution de questions variées, ces modèles haut de gamme ont paradoxalement affiché des taux d’erreur globaux plus importants.

Ce phénomène s’explique par leur tendance à proposer des réponses, même en situation d’incertitude, plutôt que d’admettre les limites de leurs connaissances.

Et c’est cette propension à répondre systématiquement, y compris face à l’ambiguïté, compromet leur fiabilité générale malgré leurs avantages sur d’autres aspects.

Les moteurs de recherche IA semblent contourner les protocoles d’exclusion des éditeurs

D’après une enquête menée par les chercheurs du CJR (Columbian Journalism Review), certains systèmes d’intelligence artificielle semblent contourner les mécanismes de protection mis en place par les éditeurs.

L’étude révèle d’ailleurs que ces outils ne respectent pas toujours les directives du protocole d’exclusion des robots, conçu pour limiter l’accès non autorisé aux contenus.

Un cas particulièrement frappant a été observé avec la version gratuite de Perplexity. Ce moteur de recherche en particulier a réussi à identifier correctement l’ensemble des 10 extraits d’articles payants du National Geographic. Et ce malgré les restrictions explicites imposées par ce dernier pour empêcher Perplexity d’explorer ses contenus.

Et même lorsqu’elles mentionnent leurs sources, les moteurs de recherches AI orientent souvent les utilisateurs vers des contenus republiés sur des agrégateurs comme Yahoo News.

Je me demande bien pourquoi ne pas directement renvoyer les lecteurs vers les publications originales.

Aussi, cette pratique entre dans le cadre de la création d’adresses web artificielles. Ce qui fait que dans plus de 50 % des cas, les références fournies par Google Gemini et Grok 3 dirigeaient les utilisateurs vers des URL inexistantes ou défectueuses.

Et les tests menés sur Grok 3 sont particulièrement révélateurs. Sur 200 références analysées, 154 conduisaient à des liens non fonctionnels.

AI Search Has A Citation Problem – We Compared Eight AI Search Engines. They’re All Bad at Citing News. Columbia Journalism Review https://t.co/8DRasPV1ms
— Evan Kirstel #B2B #TechFluencer (@EvanKirstel) March 15, 2025

Les éditeurs expriment leurs inquiétudes face aux moteurs de recherches IA

Face à ce manque de transparence des moteurs de recherches IA, le directeur opérationnel du magazine Time, Mark Howard, a fait part de ses préoccupations au CJR.

Mais malgré ces inquiétudes, Howard se montre optimiste quant aux évolutions futures. Il affirme cependant que le produit est actuellement à son stade le moins performant.

Néanmoins, Howard n’a pas hésité à critiquer l’attitude des utilisateurs. Il leur attribue d’ailleurs une part de responsabilité s’ils ne font pas preuve d’esprit critique face à la fiabilité des outils d’IA gratuits.

« Si un consommateur croit aujourd’hui qu’un de ces services gratuits peut être fiable à 100 %, c’est à lui d’en assumer les conséquences », a-t-il ajouté.

Les réponses peu convaincantes de Microsoft et d’OpenAI

Suite à ces révélations du CJR, OpenAI et Microsoft ont à leur tour rédigé des communiqués.

Elles reconnaissent avoir pris connaissance des résultats de l’étude, sans toutefois apporter de réponses précises aux problèmes soulevés.

OpenAI, en particulier, a réitéré son engagement à soutenir les éditeurs en générant du trafic grâce à des curriculums vitae, citations, liens explicites et mentions des sources.

Microsoft a, de son côté, affirmé respecter les protocoles d’exclusion des robots et les directives éditoriales.

Pourtant, même ChatGPT se confronte aussi à ce genre de problème. Sam Altman et ses équipes pourront-ils y remédier ?