in

Gemini 3 Flash se dote d’une capacité visuelle et peut enquêter sur les images

Gemini Agentic Vision

L’intelligence artificielle ne se contente plus de regarder vos images, elle les enquête désormais activement. Google vient de déployer une mise à jour majeure pour son modèle Gemini 3 Flash baptisée « Agentic Vision ». Cette nouvelle fonctionnalité transforme radicalement la manière dont l’IA analyse le monde visuel en combinant raisonnement et exécution de code. Disponible dès aujourd’hui via Google AI Studio et Vertex AI, cette innovation promet de réduire drastiquement les erreurs d’interprétation.

Contrairement aux anciennes versions qui analysaient une image de manière globale et statique, cette nouvelle mouture adopte un comportement d’agent actif

Elle combine le raisonnement visuel avec la capacité d’exécuter du code informatique en temps réel. 

L’objectif est de fonder chaque réponse sur des preuves visuelles tangibles plutôt que sur des suppositions statistiques. 

Google annonce d’ores et déjà une amélioration de la qualité des réponses de 5 à 10 % sur la plupart des tests de vision. 

Cette fonctionnalité est accessible immédiatement pour les développeurs via l’API Gemini et pour les utilisateurs de l’application Gemini.

Fini le coup d’œil unique, l’IA apprend à zoomer et à chercher

Jusqu’à présent, les modèles d’IA traitaient le monde visuel en un seul « coup d’œil ». S’ils manquaient un petit détail comme un numéro de série ou un panneau lointain, ils étaient contraints de deviner, ce qui menait souvent à des erreurs. 

Mais Agentic Vision de Gemini change la donne en transformant la compréhension d’images en une investigation active. Google a en effet introduit une boucle de rétroaction de type « penser, agir, observer »

Le modèle élabore désormais des plans pour zoomer sur des zones précises, inspecter des détails et manipuler l’image étape par étape

YouTube video

Du code Python pour annoter et analyser les données complexes

La véritable puissance d’Agentic Vision réside dans sa capacité à interagir avec son environnement. 

Au lieu de se contenter de décrire passivement ce qu’il voit, Gemini 3 Flash peut exécuter du code pour agir sur le canevas

Il peut par exemple annoter l’image ou dessiner directement dessus pour étayer son raisonnement visuel. 

Cette capacité est particulièrement redoutable pour l’analyse de tableaux à haute densité ou de documents complexes. 

L’IA peut aussi utiliser du code Python pour extraire des données, vérifier des résultats et les visualiser graphiquement. 

Google prévoit déjà d’étendre ces fonctionnalités aux modèles plus larges que la version Flash et d’intégrer de nouveaux comportements implicites. 

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !