OpenAI dévoile ChatGPT Vision, l’IA qui voit, comprend et vous répond en temps réel

Fin 2022, OpenAI a lancé ChatGPT, un chatbot IA qui compte aujourd’hui des centaines de millions d’utilisateurs hebdomadaires. Mais le lancement ce ChatGPT n’était que le début d’une stratégie ambitieuse de la start-up pour atteindre l’AGI. Aujourd’hui, OpenAI a lancé ChatGPT Vision, une version du chatbot qui dispose de la capacité d’interagir avec le monde réel.

En plus simple, ChatGPT Vision est une version optimisée qui est dotée des capacités de vision par ordinateur.

En réalité, comme Sam Altman l’a indiqué dans un communiqué, ChatGPT aura une meilleure aptitude conversationnelle grâce à la vision par ordinateur puisqu’il poura analyser les images et les vidéos en temps réel.

ChatGPT Vision, un projet à la hauteur des ambitions d’OpenAI

Les ambitions d’OpenAI dans le développement de ChatGPT Vision sont très claires. L’entreprise souhaite cependant créer une IA polyvalente pouvant assister les utilisateurs dans une multitude de tâches.

À terme, ChatGPT Vision fera référence à un agent conversationnel utile au quotidien et ayant la capacité de comprendre le monde physique.

Ainsi, OpenAI espère élargir le champ d’application du chatbot. Création de contenu, service client, éducation, assistance personnelle, tout est possible avec ChatGPT Vision.

Je dirai même qu’il s’agit d’un assistant virtuel multitâche ultra-performant que vous pouvez embarquer dans un robot humanoïde pour que celui-ci puisse interagir avec le monde réel.

ChatGPT Vision vs Google

Il y a quelques mois, OpenAI a lancé son moteur de recherche alimenté par intelligence artificielle. Et Perplexity a aussi suivi cette voix pour proposer son outil de recherche IA.

Alors, cela veut-il dire que c’est la fin de Google ? En tout cas, ChatGPT pourrait supplanter les moteurs de recherche traditionnels grâce à ses compétences.

Et avec ChatGPT Vision, OpenAI pourrait facilement surpasser Google Lens qui n’est accessible que via mobile.

Mais le petit bémol avec cet outil d’OpenAI, c’est que ces données de formation restent limitées à une certaine période.

Il a été entraîné sur des données qui datent d’avant 2021. Donc si vous lui demandez des actualités récentes, il ne pourra pas vous donner une réponse satisfaisante.

Cela dit, Google reste jusqu’ici imbattable en matière d’actualité et de recherches spécifiques.

Par contre, au fur et à mesure où ChatGPT gagne en connaissances, il pourra devenir une meilleure alternative aux moteurs de recherche traditionnels.

ChatGPT + Computer Vision = A dictionary for what you see.

By giving ChatGPT eyes, we allow it to answer questions about the world around us. pic.twitter.com/pS5dvDcSmk
— Aaron Ng (@localghost) March 6, 2023

Alors, comment activer ChatGPT Vision ?

Sachez avant tout que ChatGPT Vision n’est pas disponible dans toutes les régions du monde. Alors, pour contourner cette limitation géographique, je vous recommande d’utiliser VPN.

Voici, après avoir installé un réseau privé virtuel, comment activer la fonctionnalité ChatGPT Vision où que vous soyez.

En premier lieu, vous devez trouver et installer le service VPN de votre choix. Il existe de nombreux fournisseurs de réseau virtuel.

Chacun d’entre eux a ses avantages, mais c’est à vous de choisir celui qui vous convient. Vous pouvez par exemple opter pour ExpressVPN, NordVPN ou CyberGhost.

Pour l’installation proprement dite, vous n’avez qu’à vous rendre sur le site officiel du fournisseur de votre choix ou télécharger un VPN sur App Store ou sur Google Play.

Une fois le VPN installé sur votre appareil mobile ou sur votre PC, il ne vous reste plus qu’à sélectionner un serveur localisé aux États-Unis.

Maintenant, ouvrez ChatGPT et veillez à maintenir le VPN actif pour qu’OpenAI puisse croire que vous utilisez le chatbot depuis l’Amérique.

Attention, il va falloir utiliser la dernière version de ChatGPT pour pouvoir accéder au mode Vision. Assurez-vous donc de le mettre à jour avant utilisation.

La prochaine étape consiste à accéder aux paramètres de ChatGPT depuis l’interface et à rechercher l’option Visio ou mode vocal.

Si vous avez le niveau d’accès permettant d’accéder à ChatGPT Vision, il devrait apparaître dans cet onglet.

Dans quels cas utiliser le mode visio de ChatGPT ?

ChatGPT Vision, fonctionne de manière assez similaire à Google Bard. Je l’utilise personnellement pour identifier des images.

Par contre, il faudra souscrire à l’abonnement ChatGPT Plus pour accéder à ChatGPT Vision. C’est une offre qui est tarifée à 20 $ par mois à titre d’information.

Il convient également de rappeler que ChatGPT Vision a été formé sur un gros volume de données, bien que celles-ci datent d’avant 2021.

C’est grâce à ces flux de données qu’il a aujourd’hui la capacité de comprendre à la fois les textes et les images.

Cette aptitude nous offre en effet plusieurs cas d’usage pour le mode visio de ChatGPT. Et le modèle peut facilement reconnaître des éléments visuels spécifiques dans une image.

Il peut aussi déchiffrer les textes incorporés dans des visuels, et même interpréter des notions complexes comme les émotions exprimées ou l’intention sous-jacente.

Comment est-ce possible ? Eh bien, comme je l’ai mentionné plus haut, ChatGPT Vision repose sur la vision par ordinateur qu’OpenAI a intégrée à l’architecture du modèle.

Intégration de l’analyse visuelle dans les Conversations

Avec ChatGPT Vision, la dimension visuelle enrichit désormais les interactions avec l’intelligence artificielle.

Les systèmes d’IA contemporains peuvent dorénavant traiter et comprendre des éléments visuels comme les photographies. Mais aussi les séquences vidéo ou les croquis transmis via l’appareil photo de l’utilisateur.

Ces fonctionnalités trouvent particulièrement leur utilité dans des domaines tels que l’éducation, les stratégies publicitaires ou l’industrie du jeu, où la compréhension instantanée des éléments visuels apporte une valeur considérable.

L’utilisation de la caméra permet également à l’IA d’interpréter l’environnement visuel pour proposer des suggestions pertinentes.

Et l’assistant peut reconnaître des éléments présents dans l’espace de l’utilisateur ou l’accompagner pas à pas dans diverses activités comme l’assemblage d’objets ou l’exécution de recettes culinaires.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Automatisation de la programmation par reconnaissance visuelle

Parmi les avancées les plus remarquables de ChatGPT Vision figure aussi la transformation d’esquisses en un code fonctionnel.

Un simple dessin peut être converti en code HTML ou CSS. Ce qui va simplifier de manière considérable le processus de développement.

Dans le secteur éducatif, les capacités visuelles de ChatGPT en mode vision offrent un support pédagogique innovant pour les enseignants et les étudiants.

L’assistant peut d’ailleurs interpréter des représentations graphiques et proposer des solutions à des problèmes mathématiques ou clarifier des notions complexes.

Adaptation stylistique aux besoins de l’utilisateur

ChatGPT Vision propose également des options d’ajustement sophistiquées permettent de moduler les réponses de l’IA selon différents registres, adaptés aux objectifs spécifiques.

Que l’on recherche un ton professionnel ou une communication plus décontractée, l’assistant peut s’adapter pour optimiser la qualité des échanges.

Il s’agit par ailleurs d’une technologie qui constitue un environnement favorable au développement de vos compétences en langues étrangères.

Les échanges avec ChatGPT, qui sont aujourd’hui plus naturels, offrent une pratique comparable à celle qu’on aurait avec un formateur en langues.

On peut ainsi apprendre facilement un nouvel idiome et améliorer notre prononciation.

Protection des informations et confidentialité

Face à l’expansion de ces nouvelles fonctionnalités de ChatGPT Vision, la protection des données personnelles demeure prioritaire.

Les développeurs assurent que le traitement des contenus visuels et des dialogues respecte des normes rigoureuses de confidentialité, comparables à celles des grandes entreprises technologiques.

Mais pour une protection renforcée, l’utilisation d’un réseau privé virtuel peut offrir une couche supplémentaire de sécurité lors des interactions, comme je l’ai mentionné plus haut.

Mais quel intérêt pour les utilisateurs ?

Avec ces nouvelles capacités, est-ce qu’il y a des avantages concrets dans l’utilisation de ChatGPT Vision ?

Eh bien oui ! Premier avantage de l’utilisation de ChatGPT Vision : l’efficacité de sa capacité d’analyse de contexte qui offre une interaction plus fluide et plus engageante.

En second lieu, le mode Visio de ChatGPT peut également générer des réponses contextuelles pertinentes et des recommandations qui s’adaptent à toutes sortes de besoins.

Troisièmement, ChatGPT Vision est disponible en version web et en version mobile. Vous pouvez en effet l’utiliser sur un smartphone, une tablette ou un PC.

D’autres domaines ont aussi bénéficié des performances de ChatGPT Vision. À savoir l’industrie du jeu vidéo, la messagerie instantanée, ou encore l’assistance à domicile.

Et si on combine le mode visio au mode vocal, ChatGPT s’impose comme un vrai pionnier de l’interaction homme-machine.

Partager l'article :