Lundi dernier, le 16 de ce mois, Google a annoncé un nouvel outil de génération d’image par intelligence artificielle qu’elle a baptisé Whisk. Si d’habitude, comme c’est le cas sur Midjourney, Ideogram et FLUX, il faut saisir une invite pour obtenir des images, le nouveau modèle de génération d’images par IA de Google permet plutôt de générer des images sans prompt.
Après l’annonce de Google, Whisk est déjà disponible aux États-Unis. Et il suffit glisser une image contenant un cadre, un style, un sujet ou un environnement pour que l’outil passe à l’action.
Par contre, Google affirme dans un article cet article de blog que Whisk n’est pas destiné à un usage professionnel.
Il s’agit plutôt d’un outil aliment par IA qui, malgré sa créativité, a été pensé comme un outil, voire une fonctionnalité divertissante.
Cette décision de Google entre dans le cadre du lancement de produit grand public, comme le cas d’OpenAI qui, elle aussi, décidé de déployer largement son moteur de recherche ChatGPT Search.
Remixez vos images d’un simple geste
Depuis le lancement de DALL-E par OpenAI en 2021, les œuvres d’art générées par l’IA se sont imposées sur les réseaux sociaux, devenant un pilier incontournable des produits destinés au grand public.
Dans cette lignée, Google a introduit Whisk, un outil de génération d’image à partir d’une image, qui s’inspire du succès des générateurs de texte en image.
Avec Whisk, vous pouvez remixer l’image finale en ajustant leurs entrées et en combinant différentes catégories pour générer des créations variées.
Whisk vous offre également la possibilité d’ajouter du texte pour préciser certains détails, bien que cela ne soit pas indispensable pour produire une image.
Si vous n’avez pas d’image à votre disposition, vous devrez vous apercevoir qu’il y a un bouton en forme de dé qui vous permettra de générer une image et de l’utiliser en tant que prompt.
Google’s new Whisk tool is so good.
— Alvaro Cintas (@dr_cintas) December 17, 2024
It lets you create custom stylized versions of any photo by combining subjects, scenes, and artistic styles.
Entirely free and you don’t even need to write prompts, just add images for each. pic.twitter.com/IA03FCTqcA
Quelle différence avec le mode /describe de Midjourney ?
Midjourney, le générateur d’images IA le plus populaire du secteur, propose déjà une fonctionnalité dont le but est d’utiliser une image pour obtenir des prompts.
Pour ce faire, il vous suffit de saisir « /describe » dans la zone de saisie de Discord et de glisser ou de coller l’image de votre choix.
Le système va ensuite vous proposer quatre invites et vous n’avez plus qu’à choisir celle qui vous convient ou de générer tous les prompts.
Mais avec Whisk, je dirai qu’il ne s’agit pas d’un modèle de génération text-to-image, mais plutôt d’un outil de génération image-to-image.
Le modèle ne va donc pas vous proposer des prompts. Il va directement générer des images à partir de celle que vous aviez utilisée en tant qu’invite.
Aucun prompt n’est nécessaire pour générer vos images IA
Whisk, l’IA générative d’images sans prompts de Google combine Gemini et Imagen 3, le dernier générateur d’images développé par DeepMind.
Le processus de création sur Whisk est particulièrement intéressant. Quand vous importez une image, Gemini travaille en arrière-plan pour générer une description détaillée et précise de celle-ci.
Cette description textuelle est ensuite transmise à Imagen 3, qui s’en inspire pour créer de nouvelles images.
Cette approche vise à saisir l’essence du sujet plutôt que de le reproduire fidèlement, ce qui permet une réinterprétation créative, mais peut parfois produire des résultats assez éloignés de l’image source.
Par exemple, les caractéristiques physiques comme la taille, la coiffure ou le teint peuvent varier significativement dans l’image générée.
Actuellement en phase initiale de développement, Whisk est accessible via Google Labs uniquement aux États-Unis.
Google précise que l’outil est conçu pour l’exploration visuelle rapide plutôt que pour des modifications précises.
Consciente des potentielles imprécisions de l’outil, l’entreprise a intégré une fonction permettant aux utilisateurs de modifier les descriptions textuelles qui guident la génération d’images.
Cette fonctionnalité offre un meilleur contrôle sur le résultat final, même si l’outil a déjà rencontré quelques controverses. En particulier concernant la précision historique de certaines images générées lors de son lancement initial en février.
- Partager l'article :