in

GPT-4o a un nouveau superpouvoir, un Midjourney 2.0 ?

Nouvel générateur d'image de GPT-4o

Ça fait presque un an qu’OpenAI a lancé le modèle multimodal GPT-4o. Et comme une bonne nouvelle n’arrive jamais seule, l’entreprise dirigée par Sam Altman vient d’annoncer l’arrivée de son modèle d’IA générative d’images native à GPT-4o. Celui-ci est déjà disponible pour les abonnés Team, Pro, Plus et Free.

Pour ceux qui sont abonnés à ChatGPT Edu et à ChatGPT Enterprise, le générateur d’images natives de GPT-4o est disponible via l’API.

YouTube video

Mais on a déjà DALL-3 sur ChatGPT, non ?

À titre d’information, on pouvait déjà générer des images directement sur ChatGPT grâce à l’intégration de DALL-E 3.

Mais la différence, c’est que ce nouveau modèle de génération d’image de GPT-4o a été formé dans le but de comprendre n’importe quel type de média.

Quant à DALL-3, il s’agit d’un modèle de transformateur de diffusion classique. Sa formation permet uniquement de reconstruire les images via une description textuelle.

Ce qui veut dire que les images générées par ce modèle sont plus réalistes et plus détaillées puisqu’il interprète mieux les prompts.

Autre avantage du modèle : on peut demander des modifications ou d’autres changements en langage naturel au cas où le résultat ne correspond pas à nos attentes.

Comme l’a indiqué un utilisateur ayant eu l’occasion de tester le modèle : « cette IA générative d’images de ChatGPT est folle. Je n’ai jamais vu des images d’une telle qualité venant des chatbots ».

Déjà disponible sur ChatGPT et sur Sora, que peut faire le nouveau modèle natif de GPT-4o ?

ChatGPT n’est pas le seul outil à intégrer ce nouveau modèle de génération d’images native de GPT-4o.

Il est également intégré à Sora, la plateforme d’IA générative de vidéos d’OpenAI lancée au mois de décembre de l’année dernière.

Je n’ai pas encore eu l’occasion de tester ce générateur d’images natif de GPT-4o, mais d’après ce que j’ai constaté sur X, le modèle promet d’être plus performant que DALL-E 3.

Il aurait même la capacité d’intégrer les textes dans les images qu’il génère, à l’image d’Ideogram qui, d’après moi, est le meilleur outil IA pour intégrer du texte dans les visuels.

Grâce à cette capacité, OpenAI offre aux utilisateurs de générer directement depuis ChatGPT et Sora des supports variés. Notamment des menus, les panneaux publicitaires, ainsi que des infographies.

Sinon, ce modèle de génération d’images natif de GPT-4o dispose également d’une précision technique hors pair. Ce qui lui permet de traiter des requêtes visuelles complexes tout en conservant un niveau de détail et de fidélité élevé.

Il est même possible de décrire l’image que vous souhaitez générer et indiquer à ChatGPT la taille, la palette de couleurs et la transparence que vous voulez pour le visuel.

Allie K. Miller, consultante indépendante en IA, considère ce modèle comme un « bon en avant dans la génération de textes par IA ».

Elle ajoute même dans une publication X qu’il s’agit du meilleur modèle d’IA générative d’images qu’elle au jamais vu.

Mais cela ne veut pas dire que le modèle est parfait

Bien sûr, comme tout autre modèle de génération d’images par IA, celui de GPT-4o n’est pas encore parfait, étant donné qu’i est encore à ses débuts.

OpenAI a cependant encore quelques défis à relever, en particulier au niveau du recadrage des images.

Le modèle a encore tendance à recadrer de manière étroite les images de grande taille comme les affiches.

Côté génération de texte, on se confronte toujours à un problème d’affichage, surtout pour les caractères non anglais

Aussi, quand on génère des textes assez détaillés, les petits caractères ne sont pas assez clairs à lire.

En ce qui concerne la modification d’images, le modèle a souvent tendance à modifier d’autres éléments que ceux mentionnés dans le prompt.

En tout cas, on peut dire que c’est une réussite, techniquement parlant. Et pour couronner le tout, OpenAI a imposé des mesures de sécurité et d’étiquetage.

Toutes les images que génère le modèle incluent en effet des métadonnées C2PA. On peut cependant identifier leur origine.

YouTube video

En parlant de transparence

Tant qu’on y est, OpenAI a aussi développé un outil de recherche interne spécifiquement conçu pour identifier les images générées par intelligence artificielle.

L’entreprise a également mis en place des protocoles de sécurité rigoureux pour prévenir les utilisations potentiellement dangereuses de sa technologie.

Ces mesures de sécurité incluent des blocages systématiques des contenus préjudiciables, avec une attention particulière portée sur l’interdiction des images explicites, trompeuses ou susceptibles de nuire.

Mais ce qui m’a le plus intéressé, c’est l’instauration des restrictions renforcées concernant la représentation de personnes réelles.

Comme on en a parlé dans cet article, les deepfakes pourraient nuire à la vie privée des gens. Et les mesures de sécurité d’OpenAI visent justement à éviter les risques de manipulation ou d’atteinte à la vie privée.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *