Ça fait presque un an qu’OpenAI a lancé le modèle multimodal GPT-4o. Et comme une bonne nouvelle n’arrive jamais seule, l’entreprise dirigée par Sam Altman vient d’annoncer l’arrivée de son modèle d’IA générative d’images native à GPT-4o. Celui-ci est déjà disponible pour les abonnés Team, Pro, Plus et Free.
Pour ceux qui sont abonnés à ChatGPT Edu et à ChatGPT Enterprise, le générateur d’images natives de GPT-4o est disponible via l’API.
Mais on a déjà DALL-3 sur ChatGPT, non ?
À titre d’information, on pouvait déjà générer des images directement sur ChatGPT grâce à l’intégration de DALL-E 3.
Mais la différence, c’est que ce nouveau modèle de génération d’image de GPT-4o a été formé dans le but de comprendre n’importe quel type de média.
Quant à DALL-3, il s’agit d’un modèle de transformateur de diffusion classique. Sa formation permet uniquement de reconstruire les images via une description textuelle.
Ce qui veut dire que les images générées par ce modèle sont plus réalistes et plus détaillées puisqu’il interprète mieux les prompts.
Autre avantage du modèle : on peut demander des modifications ou d’autres changements en langage naturel au cas où le résultat ne correspond pas à nos attentes.
Comme l’a indiqué un utilisateur ayant eu l’occasion de tester le modèle : « cette IA générative d’images de ChatGPT est folle. Je n’ai jamais vu des images d’une telle qualité venant des chatbots ».
GPT-4o with image generation is insane.
now, what if you told some common people that this is not a real picture? would they believe it?
NO… absolutely not https://t.co/8yYEKHezkj pic.twitter.com/HpyYpKqxll— Haider. (@slow_developer) March 25, 2025
Déjà disponible sur ChatGPT et sur Sora, que peut faire le nouveau modèle natif de GPT-4o ?
ChatGPT n’est pas le seul outil à intégrer ce nouveau modèle de génération d’images native de GPT-4o.
Il est également intégré à Sora, la plateforme d’IA générative de vidéos d’OpenAI lancée au mois de décembre de l’année dernière.
Je n’ai pas encore eu l’occasion de tester ce générateur d’images natif de GPT-4o, mais d’après ce que j’ai constaté sur X, le modèle promet d’être plus performant que DALL-E 3.
Il aurait même la capacité d’intégrer les textes dans les images qu’il génère, à l’image d’Ideogram qui, d’après moi, est le meilleur outil IA pour intégrer du texte dans les visuels.
Grâce à cette capacité, OpenAI offre aux utilisateurs de générer directement depuis ChatGPT et Sora des supports variés. Notamment des menus, les panneaux publicitaires, ainsi que des infographies.
Sinon, ce modèle de génération d’images natif de GPT-4o dispose également d’une précision technique hors pair. Ce qui lui permet de traiter des requêtes visuelles complexes tout en conservant un niveau de détail et de fidélité élevé.
Il est même possible de décrire l’image que vous souhaitez générer et indiquer à ChatGPT la taille, la palette de couleurs et la transparence que vous voulez pour le visuel.
Allie K. Miller, consultante indépendante en IA, considère ce modèle comme un « bon en avant dans la génération de textes par IA ».
Elle ajoute même dans une publication X qu’il s’agit du meilleur modèle d’IA générative d’images qu’elle au jamais vu.
🚨 BREAKING: OpenAI just launched a new image generation model, fully built in to GPT-4o and Sora. And it's the best I've seen.
— Allie K. Miller (@alliekmiller) March 25, 2025
I got early access. I'm going to tell you what you need to immediately test.
1) ask for a graphic or diagram
2) tweak until you like it
3) ask for it… pic.twitter.com/MbjG9I6LQV
Mais cela ne veut pas dire que le modèle est parfait
Bien sûr, comme tout autre modèle de génération d’images par IA, celui de GPT-4o n’est pas encore parfait, étant donné qu’i est encore à ses débuts.
OpenAI a cependant encore quelques défis à relever, en particulier au niveau du recadrage des images.
Le modèle a encore tendance à recadrer de manière étroite les images de grande taille comme les affiches.
Côté génération de texte, on se confronte toujours à un problème d’affichage, surtout pour les caractères non anglais.
Aussi, quand on génère des textes assez détaillés, les petits caractères ne sont pas assez clairs à lire.
En ce qui concerne la modification d’images, le modèle a souvent tendance à modifier d’autres éléments que ceux mentionnés dans le prompt.
En tout cas, on peut dire que c’est une réussite, techniquement parlant. Et pour couronner le tout, OpenAI a imposé des mesures de sécurité et d’étiquetage.
Toutes les images que génère le modèle incluent en effet des métadonnées C2PA. On peut cependant identifier leur origine.
En parlant de transparence
Tant qu’on y est, OpenAI a aussi développé un outil de recherche interne spécifiquement conçu pour identifier les images générées par intelligence artificielle.
L’entreprise a également mis en place des protocoles de sécurité rigoureux pour prévenir les utilisations potentiellement dangereuses de sa technologie.
Ces mesures de sécurité incluent des blocages systématiques des contenus préjudiciables, avec une attention particulière portée sur l’interdiction des images explicites, trompeuses ou susceptibles de nuire.
Mais ce qui m’a le plus intéressé, c’est l’instauration des restrictions renforcées concernant la représentation de personnes réelles.
Comme on en a parlé dans cet article, les deepfakes pourraient nuire à la vie privée des gens. Et les mesures de sécurité d’OpenAI visent justement à éviter les risques de manipulation ou d’atteinte à la vie privée.
- Partager l'article :