in

Une start-up de six personnes surclasse Gemini 3 sur ARC-AGI-2 et surprend le secteur

Une jeune pousse vient de créer la surprise en dépassant la version Deep Think de Gemini 3 sur ARC-AGI-2. Ce test réputé redoutable mesure une forme de raisonnement que les modèles actuels peinent encore à maîtriser. Poetiq atteint 54 %, un niveau que les chercheurs imaginaient hors de portée avant plusieurs années.

Depuis plusieurs mois, Gemini 3 occupe les premières places des classements participatifs, notamment sur LMArena où des milliers d’utilisateurs évaluent les modèles en temps réel. Pourtant, un test bien plus exigeant vient de rebattre les cartes. Cette avancée repose non pas sur un modèle inédit, mais sur un métasystème qui analyse, critique et affine les réponses de Gemini 3 Pro jusqu’à obtenir le résultat final.

YouTube video

Une start-up méconnue dépasse Gemini 3 sur un test stratégique

Une discrète jeune pousse vient de perturber l’ordre établi. Poetiq, une équipe de six chercheurs, annonce 54 % au test de raisonnement ARC-AGI-2, un score confirmé par les organisateurs du benchmark selon l’entreprise. Ce résultat dépasse la performance révélée pour Gemini 3 Deep Think, qui tournait autour de 45 %, d’après les données partagées par Google.

Ce test reste tout de même redouté. François Chollet, son concepteur, indique que la majorité des modèles affichaient moins de 5 % il y a encore 6 mois (ARC-AGI, 2024).

L’écart créé par Poetiq intrigue donc autant qu’il interpelle, car Gemini 3 dominait jusque-là les comparaisons participatives sur LMArena, un classement alimenté chaque jour par plusieurs milliers d’utilisateurs.

Comment Poetiq transforme Gemini 3 en machine de raisonnement ?

L’équipe n’a pourtant développé aucun modèle inédit. Elle s’appuie sur un métasystème présenté comme un contrôleur qui analyse et perfectionne les sorties d’un modèle existant.

Pour cette évaluation, Poetiq a sélectionné Gemini 3 Pro comme base technique. Le système suit une boucle structurée qui combine génération, critique, amélioration et vérification.

Selon l’entreprise, cet outil s’adapte en quelques heures à un nouveau modèle, sans entraînement spécifique. Les modules employés restent classiques et ne nécessitent aucune configuration complexe. Poetiq avance aussi un avantage financier notable. Une tâche ARC-AGI-2 réalisée avec Deep Think reviendrait à environ 77 dollars, alors que son approche tournerait autour de 30 dollars.

Autre point important, l’ensemble du solveur est publié en logiciel libre. Poetiq affirme que chaque étape peut être inspectée, ce qui soutient la transparence d’un domaine encore opaque.

Pourquoi ARC-AGI-2 devient un nouveau jalon pour la recherche ?

ARC-AGI-2 vise les capacités profondes, comme l’analogie, la structure ou la généralisation. Beaucoup de modèles échouent sur ce terrain, car il s’agit d’un défi pensé pour tester une forme de compréhension abstraite plutôt qu’une accumulation de données.

Le passage soudain de scores anecdotiques à un niveau supérieur à 50 % reflète un progrès méthodologique. Il montre que l’orchestration de modèles peut rivaliser avec les laboratoires géants et leurs architectures volumineuses.

Ce que cette victoire signifie pour l’évolution de l’IA

Si les résultats se confirment, ce succès pourrait annoncer une nouvelle phase. Les prochaines avancées pourraient surgir d’ingénieries légères capables de sublimer des modèles existants, sans investissements colossaux. Poetiq démontre qu’une petite équipe peut encore surprendre tout un secteur.

Cette percée met aussi en lumière un changement culturel. Les initiatives ouvertes gagnent en légitimité, car elles permettent une vérification rigoureuse et rapide. Les chercheurs disposent ainsi d’un terrain neutre pour tester des approches plus sobres, mais très inventives.

Le mouvement pourrait encourager des solutions hybrides qui misent davantage sur la finesse algorithmique que sur la puissance brute, tout en maintenant une excellente transparence scientifique.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !