Oseriez-vous défier l’IA et répondre à cette question logique ?

OpenAI, Google, Microsoft, et toutes autres grandes entreprises d’IA ont su convaincre chacun de leurs clients respectifs que leur modèle est désormais plus performant que jamais. Et oui, certains chatbots IA peuvent fournir des réponses plus factuelles. Mais cela n’empêche qu’il y aura toujours des informations erronées dans les réponses de ces assistants conversationnels. En particulier sur les questions logiques qui posent toujours des problèmes aux modèles d’IA déjà existants.

Chez Apple par exemple, Tim Cook n’est pas à 100 % sûr qu’il pourrait résoudre les problèmes d’hallucination d’Apple Intelligence.

Du côté de Google, on a déjà eu droit à des réponses tellement loufoques quand un utilisateur a demandé à Gemini de lui préparer une recette de pizza.

Pour ce qui est d’OpenAI, ChatGPT a déjà fourni des réponses complètement absurdes. Ce qui a rendu les utilisateurs perplexes quant au vrai potentiel du chatbot.

Aujourd’hui encore, les experts ne sont pas tout à fait convaincus que les modèles d’IA génératives puissent répondre à des questions logiques.

IA et raisonnement : un taux de réussite ne dépassant pas les 65 % dans les questions logiques

Pour en être sûr, on a dû mettre à l’épreuve les plus puissants et les plus populaires des modèles. Notamment Claude 3, GPT-4, Llama 3, Gemini et GPT-4o.

Sans surprise, GPT-4o s’en est sorti avec un taux de réussite de 65 %, contre 0,8 % pour Google Gemini.

Or, la question qui a été posée était très simple. On a juste demandé « Si Alice à 4 frères et 1 sœur, quel est le nombre de sœurs d’Alice ».

Llama, le modèle open source de Meta, a répondu 2, mais il a échoué. De même pour Claude 3 Opus D’Anthropic qui a répondu 4 sœurs quand on lui a posé la même question.

Le plus étonnant, c’est que quand on a indiqué qu’ils ont fourni de fausses réponses, ils se sont obstinés à donner les mêmes répliques.

Aussi, chacun des modèles ont tenté de donner une explication à leur raisonnement. Mais là encore, ils ont généré des réponses incohérentes et confuses.

Peut-on se fier aux benchmarks ?

Les benchmarks font partie des principaux moyens d’évaluer les vraies capacités de raisonnement des modèles d’intelligence artificielle.

Le MMLU par exemple, ou le Multi-task Language Understanding, indique les capacités des modèles d’IA à répondre à des raisonnements logiques.

Y’a que moi qui le trouve pas si ouf que ça ? Niveau écriture c’est naze, raisonnement n’en parlons pas, y’a que pour résumer de la grosse documentation que je le trouve performant.

En revanche son ancêtre en version beta… Ohlolololo ça c’était de l’IA https://t.co/aD0RbFoJZq pic.twitter.com/8P0KD6NfYx
— 🤷‍♂️ (@zakitosss) April 3, 2024

Donc, quand on a fait la comparaison, GPT-4o d’OpenAI se plaçait en tête de liste, suivi de près par Claude Opus 3, avec respectivement un score de 88 et 87 %.

Gemini Pro de Google se positionne en troisième place avec un score de 72 %, toujours pour le benchmark MMLU.

Quant à Llama 2-7b de Meta, il affiche un score de 64 % et se positionne juste derrière Llama. Bien en dessous de la moyenne des autres modèles.

Ce qui explique, encore une fois, le retard d’Apple dans le domaine. Espérons que la firme à la pomme puisse se rattraper avec Apple Intelligence annoncé lundi lors de la WWDC.