Le mode vocal avancé de ChatGPT est enfin là et c’est bluffant

Après deux décalages concernant le mode vocal de ChatGPT, OpenAI annonce enfin que la nouvelle fonctionnalité de chatbot est disponible. L’annonce a eu lieu mardi dernier et d’après les déclarations d’OpenAI, le déploiement du mode vocal de ChatGPT se fera en deux temps.

La première phase consiste à rendre la version Alpha de ChatGPT Vocal disponible à des utilisateurs restreints. Donc ceux qui se sont inscrits à ChatGPT Plus.

Mais l’accès généralisé devrait être confirmé par OpenAI d’ici l’automne de cette année.

Mode vocal avancé de ChatGPT enfin disponible

Il y a quelques mois, OpenAI a annoncé pour la première fois le mode Advanced Voice de ChatGPT. Mais l’entreprise a dû retarder le déploiement de la fonctionnalité à deux reprises.

Les utilisateurs ont tout de suite constaté la qualité de la voix de ChatGPT Vocal. Mais, là, une toute autre histoire commence.

Ladite voix ressemble à celle de Scarlett Johansson. Prenant connaissance de la situation, l’actrice a porté plainte contre OpenAI.

OpenAI has paused the ChatGPT voice feature after some users noted its resemblance to Scarlett Johansson's voice. This highlights significant issues at the intersection of technology, ethics, and intellectual property. Advanced AI can now mimic human voices convincingly, show…. pic.twitter.com/ouOrWQBv2z
— ITI Canada (@ITICanada) May 25, 2024

Sam Altman et ses équipes, de leur côté, affirment ne jamais utiliser la voix de la Veuve noire. Par contre, en mois de juin, OpenAI annonce qu’elle ne lancera pas encore ChatGPT Vocal.

Malgré tout, le mode vocal de ChatGPT est enfin disponible. Mais la version Alpha n’intégrera pas le partage d’écran et les fonctionnalités vidéos de GPT-4o.

Un modèle tout-en-un

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024

Le mode vocal avancé de ChatGPT se distingue de sa capacité multimodale. Si l’ancienne version se déclinait sou trois versions, celle-ci prend en charge plusieurs tâches en même temps.

La conversion de la voix en texte, le traitement de l’invite et la conversion du texte en voix se fait de ce fait depuis un seul modèle.

ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind – it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024

Aussi, OpenAI souligne que le mode vocal avancé de ChatGPT a la capacité de comprendre l’émotion de son interlocuteur.

Ce qui lui permet d’engager une conversation plus naturelle, plus fluide et plus interactif. La joie, l’excitation, et même la tristesse seront donc au rendez-vous.

4 voix disponibles et pas un de plus dans le mode vocal avancé de ChatGPT

OpenAI a précisé dans une publication les limites du nouveau mode vocal avancé de ChatGPT. Le système se cantonnera à quatre voix préenregistrées.

Chacune de ces voix a un nom distinct : Juniper, Breeze, Cove et Ember.

Ces voix ont été créées en collaboration avec des acteurs professionnels, qui ont été rémunérés pour leur contribution.

Notons tout de même que la voix de Sky, qui avait été présentée lors d’une démonstration d’OpenAI en mai, ne fait plus partie des options disponibles dans ChatGPT.

OpenAI face aux restrictions éthiques

Lindsay McCallum, qui s’exprime au nom d’OpenAI, a souligné les restrictions éthiques mises en place.

Elle a d’ailleurs affirmé que ChatGPT n’a pas la capacité de reproduire la voix d’autres personnes, qu’il s’agisse d’individus ordinaires ou de personnalités publiques.

Par ailleurs, la conception du mode vocal avancé de ChatGPT permet de bloquer toute tentative de générer des sons qui s’écarteraient des quatre voix prédéfinies.

Ce qui éviterait la prolifération des deepfakes, un des défis majeurs auxquels se confrontent les plus grandes entreprises d’intelligence artificielle.