L’intelligence artificielle ne se contente plus de regarder vos images, elle les enquête désormais activement. Google vient de déployer une mise à jour majeure pour son modèle Gemini 3 Flash baptisée « Agentic Vision ». Cette nouvelle fonctionnalité transforme radicalement la manière dont l’IA analyse le monde visuel en combinant raisonnement et exécution de code. Disponible dès aujourd’hui via Google AI Studio et Vertex AI, cette innovation promet de réduire drastiquement les erreurs d’interprétation.
Contrairement aux anciennes versions qui analysaient une image de manière globale et statique, cette nouvelle mouture adopte un comportement d’agent actif.
Elle combine le raisonnement visuel avec la capacité d’exécuter du code informatique en temps réel.
L’objectif est de fonder chaque réponse sur des preuves visuelles tangibles plutôt que sur des suppositions statistiques.
Google annonce d’ores et déjà une amélioration de la qualité des réponses de 5 à 10 % sur la plupart des tests de vision.
Cette fonctionnalité est accessible immédiatement pour les développeurs via l’API Gemini et pour les utilisateurs de l’application Gemini.
Introducing Agentic Vision — a new frontier AI capability in Gemini 3 Flash that converts image understanding from a static act into an agentic process.
— Google AI (@GoogleAI) January 27, 2026
By combining visual reasoning with code execution, one of the first tools supported by Agentic Vision, the model grounds…
Fini le coup d’œil unique, l’IA apprend à zoomer et à chercher
Jusqu’à présent, les modèles d’IA traitaient le monde visuel en un seul « coup d’œil ». S’ils manquaient un petit détail comme un numéro de série ou un panneau lointain, ils étaient contraints de deviner, ce qui menait souvent à des erreurs.
Mais Agentic Vision de Gemini change la donne en transformant la compréhension d’images en une investigation active. Google a en effet introduit une boucle de rétroaction de type « penser, agir, observer ».
Le modèle élabore désormais des plans pour zoomer sur des zones précises, inspecter des détails et manipuler l’image étape par étape.
Du code Python pour annoter et analyser les données complexes
La véritable puissance d’Agentic Vision réside dans sa capacité à interagir avec son environnement.
Au lieu de se contenter de décrire passivement ce qu’il voit, Gemini 3 Flash peut exécuter du code pour agir sur le canevas.
Il peut par exemple annoter l’image ou dessiner directement dessus pour étayer son raisonnement visuel.
Cette capacité est particulièrement redoutable pour l’analyse de tableaux à haute densité ou de documents complexes.
L’IA peut aussi utiliser du code Python pour extraire des données, vérifier des résultats et les visualiser graphiquement.
Google prévoit déjà d’étendre ces fonctionnalités aux modèles plus larges que la version Flash et d’intégrer de nouveaux comportements implicites.
- Partager l'article :
