in ,

Oseriez-vous défier l’IA et répondre à cette question logique ?

IA vs humain question logique

, , , et toutes autres grandes entreprises d'IA ont su convaincre chacun de leurs clients respectifs que leur modèle est désormais plus performant que jamais. Et oui, certains chatbots IA peuvent fournir des réponses plus factuelles. Mais cela n'empêche qu'il y aura toujours des informations erronées dans les réponses de ces assistants conversationnels. En particulier sur les questions logiques qui posent toujours des problèmes aux modèles d'IA déjà existants.

Chez par exemple, n'est pas à 100 % sûr qu'il pourrait résoudre les problèmes d'hallucination d'Apple Intelligence.

Du côté de Google, on a déjà eu droit à des réponses tellement loufoques quand un utilisateur a demandé à de lui préparer une recette de pizza.

Pour ce qui est d'OpenAI, ChatGPT a déjà fourni des réponses complètement absurdes. Ce qui a rendu les utilisateurs perplexes quant au vrai potentiel du chatbot.

YouTube video

Aujourd'hui encore, les experts ne sont pas tout à fait convaincus que les modèles d'IA génératives puissent répondre à des questions logiques.

IA et raisonnement : un taux de réussite ne dépassant pas les 65 % dans les questions logiques

Pour en être sûr, on a dû mettre à l'épreuve les plus puissants et les plus populaires des modèles. Notamment 3, -4, Llama 3, Gemini et GPT-4o.

Sans surprise, GPT-4o s'en est sorti avec un taux de réussite de 65 %, contre 0,8 % pour Google Gemini.

Or, la question qui a été posée était très simple. On a juste demandé « Si Alice à 4 frères et 1 sœur, quel est le nombre de sœurs d'Alice ».

Llama, le modèle open source de , a répondu 2, mais il a échoué. De même pour Claude 3 Opus D' qui a répondu 4 sœurs quand on lui a posé la même question.

YouTube video

Le plus étonnant, c'est que quand on a indiqué qu'ils ont fourni de fausses réponses, ils se sont obstinés à donner les mêmes répliques.

Aussi, chacun des modèles ont tenté de donner une explication à leur raisonnement. Mais là encore, ils ont généré des réponses incohérentes et confuses.

Peut-on se fier aux benchmarks ?

Les benchmarks font partie des principaux moyens d'évaluer les vraies capacités de raisonnement des modèles d'intelligence artificielle.

Le MMLU par exemple, ou le Multi-task Language Understanding, indique les capacités des modèles d'IA à répondre à des raisonnements logiques.

Donc, quand on a fait la comparaison, GPT-4o d'OpenAI se plaçait en tête de liste, suivi de près par Claude Opus 3, avec respectivement un score de 88 et 87 %.

Gemini Pro de Google se positionne en troisième place avec un score de 72 %, toujours pour le benchmark MMLU.

Quant à Llama 2-7b de Meta, il affiche un score de 64 % et se positionne juste derrière Llama. Bien en dessous de la moyenne des autres modèles.

Ce qui explique, encore une fois, le retard d'Apple dans le domaine. Espérons que la firme à la pomme puisse se rattraper avec Apple Intelligence annoncé lundi lors de la WWDC.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *