Nvidia Fugatto : le « couteau suisse » de l’audio généré par IA

Si avec les anciens IA génératives de musiques, il fallait saisir une invite pour créer de la musique, avec celle de Nvidia, baptisé Fugatto, on peut générer et transformer toutes sortes de fichiers, audio, vois et sons compris, en une musique originale en partant d’un simple prompt. Il s’agit ici d’un nouveau modèle de génération de musique qui combine vos fichiers textes et audio.

À titre d’information, Fugatto est l’acronyme de Foundational Generative Audio Transormer Opus.

Il suffit donc d’une simple description textuelle pour que l’outil génère un contenu audio, ou encore pour qu’il puisse apporter des modifications à un fichier existant.

Les possibilités sont donc variées. On peut par exemple générer in extrait de musique avec un fichier texte comme point d’entrée.

Il est également possible d’ajouter un instrument, ou encore de modifier l’accent d’une chanson existante.

Mais alors, pour qui est destiné cette IA générative d’audio de Nvidia ?

Nvidia souligne que Fugatto, son nouvel outil de génération de musique par IA, peut s’adapter à une utilisation professionnelle comme personnelle.

Si vous êtes producteur par exemple, Fugatto constitue un meilleur outil pour convertir votre idée en une chanson.

Après, vous pourrez la modifier, l’essayer sous différents styles, y ajouter une voix tout en ajoutant ou en supprimant des instruments de musique.

Pour ceux qui exercent dans l’industrie du jeu vidéo, les développeurs notamment, Cet outil IA de génération de musique de Nvidia semble être l’allié idéal pour générer des musiques de fond et des effets sonores.

Sinon, Nvidia affirme aussi que son IA générative de musique, qu’elle qualifie de « couteau suisse du son », peut parfaitement s’adapter aux besoins des agences publicitaires.

Notamment en adaptant le son généré, l’accent et l’émotion des voix-off en fonction de la région entre autres.

Nvidia vise-t-elle à surpasser l’oreille humaine ?

En tant que modèle sophistiqué, Fugatto repose une architecture multimodale de 2,5 milliards de paramètres.

NVIDIA has built a 2.5 billion parameter audio model called Fugatto that generates music, voice, and sound from text and audio input. Sound inputs become completely mutable. It can change a piano line to a human voice singing or make 'a trumpet bark or a saxophone meow. pic.twitter.com/d7oP3XC7Er
— Andrew Curran (@AndrewCurran_) November 25, 2024

Sa conception a nécessité l’utilisation d’une infrastructure de calcul particulièrement puissante. Et celle-ci est composée de 32 GPU NVIDIA H100 Tensor Core qui sont répartis sur plusieurs systèmes NVIDIA DGX.

Rafael Valle, responsable de la recherche audio appliquée chez NVIDIA, souligne d’ailleurs l’ambition du projet.

Leur objectif ? Développer un modèle capable de comprendre et générer des sons de manière aussi nuancée qu’un être humain.

Pour l’instant, Nvidia reste discret sur les perspectives de commercialisation. Aucune annonce n’a donc été faite concernant un éventuel accès grand public à Fugatto.

On n’a donc pas le choix ! Il faudra attendre la sortie officielle de l’outil pour pouvoir le tester et donner mon avis personnel.

Partager l'article :