Généralement, les IA génératives d’images permettent de générer du contenu visuel à partie d’une description textuelle. Il faut donc des prompts bien détaillés pour obtenir une image réaliste. C’est ainsi que fonctionne Midjourney, DALL-E, FLUX et tous les autres modèles que nous utilisons quotidiennement. Mais des chercheurs de l’Université d’Austin au Texas expérimentent aujourd’hui un système qui permettrait de générer des images à partir d’une bande sonore ou d’une voix quelconque. Il s’agit en effet d’un programme dont le but est de pouvoir convertir un son en des images IA.
L’entraînement du modèle a été réalisé avec des clips vidéos de 10 secondes de nombreux environnements urbains et ruraux.
Après l’entraînement, l’algorithme d’apprentissage profond sur lequel repose ce modèle de génération d’images via des sons a généré des résultats plutôt bluffants avec une précision de plus de 80 %.
Une IA capable de transformer l’audio en images
Avec le mode vocal avancé de ChatGPT, on pouvait déjà engager des discussions vocales avec le chatbot.
Mais ce projet de l’Université d’Austin est une grande première dans le processus d’évolution du GenAI.
Si les modèles comme celui d’ElevenLabs permet de générer un doublage vocal, celui de l’Université d’Austin va prendre ces sons comme point d’entrée et générer des images IA en fonction de la description sonore saisie.
Concrètement, l’expérience a été menée avec une méthodologie rigoureuse qui implique des participants humains.
Leur tâche consistait à apparier une image parmi trois choix à différentes bandes sonores préalablement analysées par l’intelligence artificielle.
Un résultat remarquable en est donc ressorti. Le modèle affichait un taux de correspondance impressionnant de 80 %. Ce qui démontre sa fiabilité et sa précision.
Dans quels cas ce modèle pourrait-il être utile ?
À mon avis, les potentiels cas d’utilisation de cette nouvelle technologie sont multiples et promettent des perspectives fascinantes.
Le domaine médico-légal représente évidemment un premier champ d’investigation immédiat de ce modèle de génération d’images IA par bandes sonores.
La capacité de reconstituer un environnement à partir d’un simple enregistrement audio pourrait révolutionner les méthodes d’enquête. Et c’est ainsi que l’on pourrait développer de nouveaux outils d’analyse et de recherche.
Mais les scientifiques orientent leur réflexion au-delà des applications judiciaires. Leur vision est plus ambitieuse et sociétalement porteuse.
Ils visent cependant à utiliser cette technologie comme un levier d’amélioration des aménagements urbains.
Cela dit, le fait de comprendre précisément l’acoustique et les environnements sonores permettrait de repenser les espaces publics. Mais aussi de réduire les nuisances tout en optimisant la qualité de vie urbaine.
- Partager l'article :