VALL-E 2 de Microsoft : une restriction inattendue

Microsoft a récemment présenté VALL-E 2, une intelligence artificielle capable d’imiter une voix humaine avec une précision inégalée. Cette innovation représente la seconde version de VALL-E, un modèle de synthèse vocale extrêmement performant.

Dévoilée en janvier 2023, la première version pouvait imiter la voix humaine en seulement trois secondes. La deuxième mouture de VALL-E se distingue par son efficacité encore accrue. Selon Microsoft, il est désormais impossible de distinguer la voix synthétique produite par VALL-E 2 de celle d’une véritable personne.

L’éditeur américain affirme que l’IA a atteint « la parité humaine pour la première fois ». Auparavant, on a pu repéré les productions de l’IA grâce à des imperfections dans la formulation ou l’intonation.

Pour améliorer VALL-E, Microsoft a intégré deux innovations majeures dans le traitement des données vocales. Ces modifications permettent à l’IA de synthétiser la parole avec une précision et un naturel exceptionnels, même pour des phrases complexes ou répétitives. Ces avancées rendent VALL-E 2 particulièrement efficace et réaliste.

Microsoft IA vocale
VALL-E 2 synthèse vocale

Microsoft entrevoit de nombreuses applications pour VALL-E 2. L’IA pourrait révolutionner des secteurs tels que « l’apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctionnalités d’accessibilité, les systèmes de réponse vocale interactifs, la traduction, le chatbot ».

De plus, elle pourrait aider les personnes en situation de handicap afin d’améliorer leur qualité de vie.

Les risques des deepfakes vocaux

Cependant, Microsoft est pleinement conscient des dangers que pose VALL-E 2. Un individu malveillant pourrait utiliser cette IA pour usurper la voix d’un proche, d’une célébrité ou d’un homme politique. Par exemple, un escroc pourrait convaincre quelqu’un de verser de l’argent ou de communiquer des informations sensibles par téléphone.

De ce fait, Microsoft a mis en garde contre les risques d’une utilisation malveillante du modèle, y compris l’usurpation d’identité vocale et l’usurpation de la voix d’orateurs spécifiques.

La menace des cybercriminels

Les cybercriminels exploitent déjà la technologie deepfake pour orchestrer des attaques sophistiquées. Les contenus générés par des IA ont permis à des escrocs de commettre des fraudes financières d’envergure. Les risques de désinformation sont également élevés. Ces préoccupations ont poussé Microsoft à prendre des mesures de précaution.

En raison de ces dangers potentiels, Microsoft a décidé de ne pas proposer VALL-E 2 au grand public. L’éditeur a annoncé : « il n’était pas prévu d’intégrer VALL-E 2 dans un produit ou d’élargir l’accès au public pour le moment. » . Cette IA est uniquement conçue à des fins de recherche, afin de minimiser les risques d’abus et de garantir une utilisation éthique et sécurisée.

Partager l'article :