À 80 % de précision, cette nouvelle IA transforme les fichiers audios en image

Par Narindra R. Publié le 16 décembre 2024 & Mis à jour le 25 mars 2025 | 2 minutes de lecture

Généralement, les IA génératives d’images permettent de générer du contenu visuel à partie d’une description textuelle. Il faut donc des prompts bien détaillés pour obtenir une image réaliste. C’est ainsi que fonctionne Midjourney, DALL-E, FLUX et tous les autres modèles que nous utilisons quotidiennement. Mais des chercheurs de l’Université d’Austin au Texas expérimentent aujourd’hui un système qui permettrait de générer des images à partir d’une bande sonore ou d’une voix quelconque. Il s’agit en effet d’un programme dont le but est de pouvoir convertir un son en des images IA.

🔥 Nous recommandons Artspace.ai

Artspace.ai est le meilleur générateur d’image pour de nombreuses raisons. Intuitif, il offre des options diversifiées pour inspirer votre créativité. Que vous soyez artiste, créateur de contenu ou simplement curieux, Artspace.ai stimule l’inspiration et vous accompagne à chaque étape de votre processus visuel

L’entraînement du modèle a été réalisé avec des clips vidéos de 10 secondes de nombreux environnements urbains et ruraux.

Après l’entraînement, l’algorithme d’apprentissage profond sur lequel repose ce modèle de génération d’images via des sons a généré des résultats plutôt bluffants avec une précision de plus de 80 %.

Une IA capable de transformer l’audio en images

Avec le mode vocal avancé de ChatGPT, on pouvait déjà engager des discussions vocales avec le chatbot.

Mais ce projet de l’Université d’Austin est une grande première dans le processus d’évolution du GenAI.

Si les modèles comme celui d’ElevenLabs permet de générer un doublage vocal, celui de l’Université d’Austin va prendre ces sons comme point d’entrée et générer des images IA en fonction de la description sonore saisie.

Concrètement, l’expérience a été menée avec une méthodologie rigoureuse qui implique des participants humains.

Leur tâche consistait à apparier une image parmi trois choix à différentes bandes sonores préalablement analysées par l’intelligence artificielle.

Un résultat remarquable en est donc ressorti. Le modèle affichait un taux de correspondance impressionnant de 80 %. Ce qui démontre sa fiabilité et sa précision.

IA générative d'images à partir d'audios — ©Université d’Austin, Texas

Dans quels cas ce modèle pourrait-il être utile ?

À mon avis, les potentiels cas d’utilisation de cette nouvelle technologie sont multiples et promettent des perspectives fascinantes.

Le domaine médico-légal représente évidemment un premier champ d’investigation immédiat de ce modèle de génération d’images IA par bandes sonores.

La capacité de reconstituer un environnement à partir d’un simple enregistrement audio pourrait révolutionner les méthodes d’enquête. Et c’est ainsi que l’on pourrait développer de nouveaux outils d’analyse et de recherche.

Mais les scientifiques orientent leur réflexion au-delà des applications judiciaires. Leur vision est plus ambitieuse et sociétalement porteuse.

Ils visent cependant à utiliser cette technologie comme un levier d’amélioration des aménagements urbains.

Cela dit, le fait de comprendre précisément l’acoustique et les environnements sonores permettrait de repenser les espaces publics. Mais aussi de réduire les nuisances tout en optimisant la qualité de vie urbaine.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: ????Image IA

Bien débuter sur Artspace AI : comment utiliser le panneau de réglages ?

Bien débuter sur Artspace AI, c’est avant tout maîtriser son interface de configuration. Situé sur […] Plus
CorridorKey, l’outil IA ultime de détourage sur fond vert

Détourer des cheveux rebelles ou un flou de mouvement sur fond vert ne sera bientôt […] Plus
Face swap vs head swap : quelles différences avec l’IA ?

Modifier un visage sur une photo est devenu un jeu d’enfant grâce aux outils d’intelligence […] Plus
Créez votre Starter Pack en 1 minute avec ce prompt ChatGPT

Depuis le printemps 2025, les réseaux sociaux sont submergés par une tendance fascinante. Les « […] Plus