in ,

À 80 % de précision, cette nouvelle IA transforme les fichiers audios en image

Construction urbaine imaginée par l'IA à partir d'une description audio

Généralement, les IA génératives d’images permettent de générer du contenu visuel à partie d’une description textuelle. Il faut donc des prompts bien détaillés pour obtenir une image réaliste. C’est ainsi que fonctionne Midjourney, DALL-E, FLUX et tous les autres modèles que nous utilisons quotidiennement. Mais des chercheurs de l’Université d’Austin au Texas expérimentent aujourd’hui un système qui permettrait de générer des images à partir d’une bande sonore ou d’une voix quelconque. Il s’agit en effet d’un programme dont le but est de pouvoir convertir un son en des images IA.

L’entraînement du modèle a été réalisé avec des clips vidéos de 10 secondes de nombreux environnements urbains et ruraux.

Après l’entraînement, l’algorithme d’apprentissage profond sur lequel repose ce modèle de génération d’images via des sons a généré des résultats plutôt bluffants avec une précision de plus de 80 %.

YouTube video

Une IA capable de transformer l’audio en images

Avec le mode vocal avancé de ChatGPT, on pouvait déjà engager des discussions vocales avec le chatbot.

Mais ce projet de l’Université d’Austin est une grande première dans le processus d’évolution du GenAI.

Si les modèles comme celui d’ permet de générer un doublage vocal, celui de l’Université d’Austin va prendre ces sons comme point d’entrée et générer des images IA en fonction de la description sonore saisie.

Concrètement, l’expérience a été menée avec une méthodologie rigoureuse qui implique des participants humains.

Leur tâche consistait à apparier une image parmi trois choix à différentes bandes sonores préalablement analysées par l’.

Un résultat remarquable en est donc ressorti. Le modèle affichait un taux de correspondance impressionnant de 80 %. Ce qui démontre sa fiabilité et sa précision.

IA générative d'images à partir d'audios
©Université d’Austin, Texas

Dans quels cas ce modèle pourrait-il être utile ?

À mon avis, les potentiels cas d’utilisation de cette nouvelle sont multiples et promettent des perspectives fascinantes

Le domaine médico-légal représente évidemment un premier champ d’investigation immédiat de ce modèle de génération d’images IA par bandes sonores.

La capacité de reconstituer un environnement à partir d’un simple enregistrement audio pourrait révolutionner les méthodes d’enquête. Et c’est ainsi que l’on pourrait développer de nouveaux outils d’ et de recherche.

Mais les scientifiques orientent leur réflexion au-delà des applications judiciaires. Leur vision est plus ambitieuse et sociétalement porteuse.

Ils visent cependant à utiliser cette technologie comme un levier d’amélioration des aménagements urbains.

Cela dit, le fait de comprendre précisément l’acoustique et les environnements sonores permettrait de repenser les espaces publics. Mais aussi de réduire les nuisances tout en optimisant la qualité de vie urbaine.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *