Google poursuit sa marche rapide autour de Gemini 3 et revisite son API avec une série d’optimisations très attendues. Le groupe introduit des commandes raffinées, des réglages visuels plus précis et des « signatures de pensée » destinées à consolider la logique interne du modèle. Une évolution qui renforce ses aptitudes en raisonnement, en analyse multimédia et en création d’agents.
Le groupe présente un paramètre central dédié au raisonnement, un réglage de résolution pour l’analyse visuelle et un retour des signatures de pensée. Ces éléments assurent une continuité logique durant les interactions, un atout majeur pour les workflows complexes.
L’API profite également d’une intégration plus souple avec les outils maison, dont Grounding with Google Search, qui adopte une tarification à l’usage. Autant d’ajouts qui visent à renforcer la qualité des agents développés autour de Gemini 3.
Un raisonnement calibré pour chaque tâche
Google introduit un paramètre central nommé thinking_level, pensé pour ajuster la profondeur du raisonnement interne avant l’émission de la réponse. Ce réglage ouvre la voie à des analyses plus approfondies lorsqu’un projet l’exige, comme une stratégie d’entreprise ou une évaluation technique élaborée.
Le mode élevé étend ainsi le cheminement logique du modèle, tandis que le mode faible raccourcit le processus pour séduire les environnements sensibles à la latence et aux coûts.
Google explique que cette souplesse « améliore l’adéquation entre charge de calcul et intention de l’utilisateur », un point souvent demandé par les équipes qui conçoivent des systèmes décisionnels.
Une vision multimodale désormais réglable
L’API enrichie propose un nouveau paramètre baptisé media_resolution. Celui-ci détermine la quantité de jetons consacrés à l’analyse d’images, de vidéos ou de documents, avec trois niveaux définis : low, medium et high.
En pratique, une résolution élevée renforce la capacité du modèle à distinguer des caractères minuscules ou des éléments imbriqués au sein d’une scène complexe. À l’inverse, une résolution basse économise des jetons lors d’une lecture plus globale.
Google souligne que ce réglage optimise l’équilibre entre fidélité visuelle et coûts opérationnels, un détail qui intéresse particulièrement les développeurs spécialisés en OCR, en surveillance ou en analyse documentaire.
Les signatures de pensée reviennent au cœur du modèle
Gemini 3 réintroduit les signatures de pensée, des représentations chiffrées du processus interne du modèle. Elles servent à transmettre au modèle, lors des appels suivants, la logique employée précédemment.
Cette continuité améliore la fiabilité des chaînes de décisions et soutient les workflows multi-étapes où la cohérence du raisonnement importe autant que le résultat produit.
Google indique que ces signatures conservent la mémoire profonde du pourquoi, un élément crucial pour les agents qui gèrent des cycles longs, manipulent des données différées ou interprètent un contexte étendu.
Des agents plus fiables grâce aux données en temps réel
Google associe désormais les sorties structurées aux outils hébergés sur son écosystème, notamment Grounding with Google Search et le contexte d’URL. Cette combinaison simplifie la création d’agents capables d’extraire des informations récentes depuis le Web, puis de les convertir directement en JSON.
Pour accompagner cet usage, Google revoit aussi la tarification. Le forfait initial de 35 dollars pour 1 000 requêtes disparaît au profit d’un modèle à l’usage fixé à 14 dollars pour 1 000 recherches.
Ce changement vise à aligner la facturation sur les besoins réels des développeurs et encourage des intégrations plus poussées dans les systèmes qui manipulent des flux d’informations continus.
- Partager l'article :
