Oui, Claude 3 a pu surpasser ChatGPT sur Chatbot Arena, mais est-ce qu’on peut dire que ce sera la première AGI ? Est-ce qu’il s’agit vraiment de la toute première IA ayant des capacités semblables à celles de l’être humain ? Le débat est ouvert !
Rappelons tout de même qu’Anthropic a lancé Claude 3 il y a juste un mois. Depuis, la popularité de ce nouveau modèle de langage n’a cessé d’augmenter.
Certains affirment même que les performances de Claude 3 sont comparables à celles de ChatGPT sous le modèle GPT-4.
Mais selon Anthropic, Claude 3 ne se limite pas à des tâches de générations généralistes. Le modèle se rapproche de plus en plus de l’intelligence humaine et vient d’établir de nouveaux records.
Haiku, Sonnet et Opus, un nom pour chaque version
Anthropic a donné un nom pour chaque variante de Claude 3. L’entreprise a baptisé la version gratuite Sonnet.
Quant à la version payante, elle a hérité du nom Opus restera accessible aux abonnés à un tarif mensuel de 20 dollars.
Qu’il s’agisse de Haiku, de Sonnet ou d’Opus, les trois variantes de Claude 3 ont pu franchir les limites auxquelles les autres modèles comme GPT-4 se sont confrontés.
C’est valable pour la complexité comme pour son nombre de paramètres qui s’élève à 200 000 tokens, c’est-à-dire le nombre de mots que Claude 3 peut traiter en une seule fois.
Il a donc fallu près d’un an à Anthropic avant de pouvoir rattraper et surpasser les grands modèles d’OpenAI.
Quoi qu’il en soit, des tests s’imposent pour vraiment savoir à quoi s’en tenir !
Un match serré entre Claude 3 et GPT-4
Sur 10 benchmarks, Claude 3 est de loin plus performant que GPT-4. En particulier sur les mathématiques, la connaissance, la culture générale et l’écriture de code informatique.
Le match reste néanmoins très serré avec un score de 86,8 % pour Claude Opus contre 86,4 % pour GPT-4 sur MMLU (connaissance).
Pour ce qui est de HumanEval, Claude 3 remporte facilement le match avec un score de 84,9 % contre 67 % pour GPT-4.
Ce n’est pas tout ! Claude AI surpasserait même le modèle le plus puissant et le plus performant de Google : Gemini Ultra.
Quoi qu’il en soit, on ne peut toujours pas quantifier ni la véritable plus-value de ces modèles de langage pour chaque utilisateur.
Les benchmarks montrent des résultats, certes. Mais faire preuve de suspicion, selon Simon Willison, reste de mise.
Il ajoute que les Benchmarks n’incluent en rien l’expérience utilisateur offerte par les modèles d’intelligence artificielle.
Claude 3 reste néanmoins un véritable coup de génie venant d’Anthropic. En un an, aavec une telle supériorité sur les benchmarks.
- Partager l'article :