NVIDIA a mis au point des nouveaux modèles d’IA qui produisent des voix plus réalistes et expressives que les anciens systèmes.
Les IA conversationnelles sont connues pour discuter dans le langage naturel des humains. Leur amélioration est indéniable depuis les GPS jusqu’aux assistants vocaux d’aujourd’hui. Néanmoins, au niveau de l’élocution, il reste évident que ce ne sont pas de véritables personnes qui parlent. Mais aux dernières nouvelles, NVIDIA a développé des nouveaux modèles d’IA capables de produire des voix plus naturelles.
RAD-TTS, l’IA de NVIDIA qui peut reproduire parfaitement la voix humaine
Effectivement, la manière dont les assistants vocaux tels que Alexa, Google Assistant et Siri s’expriment est impressionnante. Avec précision, ils génèrent des discours réalistes et cohérents à la manière des humains. Mais ils seraient encore plus étonnants si leurs rythmes et leurs intonations étaient plus naturels.
C’est ainsi que NVIDIA a mis au point de nouveaux outils capables d’acquérir des qualités vocales naturelles. Pour ce faire, ils s’entraînent avec la voix d’une véritable personne.
Le système, appelé RAD-TTS a récemment remporté un concours qui avait pour objet de développer l’avatar le plus réaliste. Entre autres, il permet à une personne d’entraîner un modèle de synthèse vocale avec sa propre voix pour lui attribuer le rythme, la tonalité, le timbre, etc.
Par ailleurs, les outils d’IA développés par NVIDIA permettent également de prononcer les mots d’un locuteur avec la voix d’une autre personne. Cette fonctionnalité de RAD-TTS s’appelle la conversation vocale. Selon les chercheurs de NVIDIA, l’interface du système offre un contrôle précis sur la hauteur, la durée et l’énergie de la voix synthétisée, au niveau de l’image.
Une narration vocale conversationnelle
Des exemples de ces nouveaux outils ont été utilisés dans la série de vidéos « I am AI ». Les chercheurs de NVIDIA ont créé une narration vocale conversationnelle avec des voix synthétisées par l’IA au lieu de voix humaines.
Dans une vidéo, le producteur s’enregistre en train de lire le script. Puis, à l’aide du RAD-TTS, il a converti son discours dans la voix d’une narratrice. Le producteur vidéo pouvait ensuite ajuster les accents et le rythme de la narration pour mieux exprimer le ton et le style de la vidéo, d’après NVIDIA.
Bien que les GPU NVIDIA permettent d’accélérer l’entraînement des modèles, une partie de la recherche est disponible en open source pour d’autres développeurs.
- Partager l'article :