La course entre Google et OpenAI dans la GenAI en cesse de s’intensifier. Mais Sam Altman et ses équipes semblent avoir une longueur d’avance avec la sortie récente du modèle o3. Quitte à dire que ce dernier est le plus susceptible d’atteindre l’AGI.
Le modèle o3, annoncé le 20 décembre dernier, dispose d’une meilleure capacité de raisonnement et pourra atteindre le niveau d’intelligence humaine.
Quant à Gemini 2.0, lancé le 12 décembre 2024, il serait le modèle le plus réfléchi de l’entreprise. C’est du moins ce qu’a avancé Sundar Pichai, PDG de Google.
Quoi qu’il en soit, OpenAI o3 et Gemini 2,0 ont démontré des capacités d’AGI importantes. Mais la différence réside généralement dans l’approche qu’ont adopté OpenAI et Google.
La première différence que j’ai constatée, c’est qu’avec le modèle o3, OpenAI s’est concentré davantage sur les capacités cognitives.
Tandis que Google a opté pour une approche visant développer une IA agentique et qui a pour objectif de résoudre les problèmes en temps réel. Il s’agit alors d’un système conçu pour améliorer la productivité des travailleurs. Mais aussi de prendre une décision de manière autonome.
OpenAI o3, plus puissant, mais plus coûteux pour les entreprises
Comme le modèle o3 d’OpenAI est orienté vers le raisonnement, il résout les problèmes en se basant sur une chaîne de pensée.
À cet effet, il est plus performant dans la résolution des problèmes complexes comme les mathématiques, la physique et le raisonnement scientifique.
Et quand j’ai fait les tests sur les benchmarks, on a obtenu des scores de 87,5 % sur les paramètres de calcul élevé et 75,7 % en ce qui concerne ceux de calcul faible.
Ce que j’ai pu en conclure, c’est que les scores du modèle o3 sont trois fois supérieurs à ceux de son prédécesseur, le modèle o1.
Mais une telle performance fait surtout référence à un coût d’exploitation assez élevé. Pour une seule tâche à faible puissance de calcul, il faudra payer 20 $. Soit des milliers de dollars pour une utilisation en mode puissance de calcul élevé.
Rédaction, visuels, synthèse vocale, les superpouvoirs de Gemini 2.0 dévoilés
Gemini 2.0 quant à lui, est un modèle multimodal. Il peut donc traiter en même temps plusieurs types de fichiers en entrée.
Il dispose également du mode réflexion qui permet de fournir des réponses étape par étape. Mais aussi de stimuler le raisonnement.
Côté rédaction créative, Gemini 2.0 a la capacité de générer un contenu de type article de blog, avec des visuels générés par intelligence artificielle.
Sans parler de la possibilité de générer un son de synthèse vocale à partir d’un seul prompt, avec possibilité de personnaliser le ton et le style du son final.
Quoi qu’il en soit, OpenAI o3 et Gemini 2.0 sont les signes que nous nous approchons de plus en plus de l’AGI.
Encore des obstacles à franchir avant l’AGI
Les avis des experts divergent par rapport à l’atteinte de l’AGI. Le directeur du Centre d’Intelligence collective du MIT, Thomas Malon, indique qu’on est encore loin d’atteindre l’intelligence artificielle générale.
Jasper Zhang (hyperbolicAI) says AI agents are already renting GPUs on their own and doing AI development in PyTorch. He also says that we are accelerating much faster than anticipated, AGI and ASI probably in a few years. pic.twitter.com/3tpyNiWzgW
— Chubby♨️ (@kimmonismus) January 11, 2025
Pour François Chollet, cocréateur du benchmark ARC-AGI, même avec le modèle o3, OpenAI n’a pas encore pu développer l’intelligence généralisée dont nécessite l’AGI.
À mon avis, il y a plusieurs facteurs qui pourraient freiner cet objectif pour OpenAI o3 comme pour Gemini 2.0. Notamment le coût de développement, la latence et la mémoire à long terme. Sans quoi, même les pus puissants modèles ne pourront pas conserver un contexte complet de chacune de leurs actions.
- Partager l'article :