La magie de Moshi enfin dévoilée, découvrez son énorme potentiel

Après Mistral, une autre startup a fait son entrée dans la course à l’IA. Moshi, le tout premier projet d’intelligence artificielle de Kyutai, fondé par Xavier Niel, est un modèle open source qui a devancé ChatGPT d’OpenAI. Et c’est tout à fait normal parce que Moshi, en tant que chatbot IA, a la capacité de générer une conversation plus latente et offre une réactivité inédite.

Par contre, Moshi ne prend en charge qu’une seule langue : l’anglais. Ce qui constitue son premier défaut.

Mais on a fait une comparaison entre ChatGPT et Moshi et le résultat est assez bluffant. Vous pouvez même tester le chatbot depuis https://moshi.chat/?queue_id=talktomoshi et vous verrez par vous-même de quoi il est capable.

Sauf que vous allez tomber sur la page d’inscription à la file d’attente. Alors, pour vous épargner cela, nous vous avons préparé un dossier sur tout ce qu’il y a à savoir sur Moshi, le chatbot Ai de Kyutai.

Une réactivité sans précédent

D’après les explications des équipes de Kyutai, les assistants conversationnels actuels suivent un processus de traitement complexe. Ce qui fait que la génération des réponses est un peu longue.

Il faut alors attendre que la requête soit complète avant que les systèmes puissent générer une réponse.

Pendant ce temps, les modèles disposant d’un mode vocal avancé, comme GPT-4o, traite l’invite avant de la convertir en voix.

Mais cette approche semble plus chronophage et il se pourrait que le modèle ne tienne pas en charge certaines informations, les émotions en particulier.

Moshi, en revanche, adopte une approche novatrice. Au lieu de se baser sur la reconnaissance de texte, il compresse le flux audio en une sorte de langage intermédiaire sur lequel l’IA peut travailler directement.

Et c’est ce qui permet à Moshi de commencer à prédire la suite de la phrase de l’utilisateur avant même qu’elle ne soit terminée.

L’interaction se fait en effet en temps réel, sans attendre la fin de l’invite. Comment ? Tout simplement parce que Moshi gère simultanément les points d’entrée et la génération de réponses à chaque requête.

Une IA qui redéfinit les règles de la conversation

Pendant la démonstration de Moshi, on s’est aperçu de sa capacité à se comporter de manière plus interactive vis-à-vis de son interlocuteur.

Contrairement aux autres assistants vocaux qui attendent patiemment la fin d’une phrase, Moshi a montré une tendance à intervenir avant que l’interlocuteur n’ait terminé de parler.

En d’autres termes, c’est comme si Moshi est constamment sur ses gardes, prêt à bondir sur la moindre opportunité de répondre.

De mon point de vue personnel, il s’agit d’un comportement, bien qu’impressionnant sur le plan technologique, qui soulève des questions. Dont l’équilibre entre réactivité et courtoisie dans les interactions homme-machine. Ou encore sur le respect de la convention sociale de la conversation, celle de laisser son interlocuteur finir sa phrase avant d’interagir.

L’origine de l’entraînement vocal de Moshi

Pour identifier d’où vient l’impressionnante qualité vocale de Moshi, on a essayé de remonter à l’origine de l’entraînement du modèle.

À vrai dire, le système de synthèse vocale de Moshi a été développé à partir des enregistrements d’une véritable artiste vocale prénommée Alice (son nom complet n’a pas été révélé par Kyutai).

C’est grâce à cette approche que Kyutai a pu offrir à Moshi une diction plus naturelle. Et donc d’apprendre au modèle comment moduler sa voix en fonction de l’émotion de son interlocuteur.

France defeats OpenAI in its own game?

French AI lab Kyutai recently released Moshi, an open-source GPT-4o competitor.

According to reports, Moshi offers features similar to ChatGPT's upcoming 'Advanced Voice Mode' GPT-4o, which has been delayed.

The best part? It is open to… pic.twitter.com/oz6wniRTTa
— Future & AI (@future_and_ai) July 23, 2024

Chuchotements, tons effrayés, imitation d’un accent français parlant anglais, on peut découvrir toutes ces émotions avec Moshi.

Elle s’est même essayée, avec un succès mitigé, mais impressionnant, à un jeu de rôle en adoptant une voix caricaturale de pirate. Une chose que Google Assistant ne peut pas faire apparemment.

Un écosystème de 4 produits qui tourne autour de Moshi

Après l’annonce de Kyutai par rapport au déploiement de Moshi, on s’est rendu compte que la startup ne se limitait pas au développement d’un simple chatbot conversationnel.

L’équipe en charge du développement de Moshi, composée de huit personnes, a pu créer tout un écosystème IA composé de quatre produits.

Moshi se trouve justement au cœur de cet ensemble. Et il est propulsé par Helium, un modèle de langage comprenant sept milliards de paramètres.

En complément, Kyutai a développé Mimi (signifiant oreille en japonais), un codec de compression audio particulièrement performant.

Ce dernier s’appuie sur une technologie de pointe appelée Vector Quantised-Variational AutoEncoder.

Le troisième élément de cet écosystème est un système de filigrane (watermarking) pour les fichiers audio, une fonction de sécurité décisive dans le domaine de l’IA.

Yesterday we introduced Moshi, the lowest latency conversational AI ever released. Moshi can perform small talk, explain various concepts, engage in roleplay in many emotions and speaking styles. Talk to Moshi here https://t.co/a4EbAQiih7 and learn more about the method below 🧵. pic.twitter.com/NkJRybTRLQ
— kyutai (@kyutai_labs) July 4, 2024

En parlant de sécurité…

Question sécurité, l’équipe de Kyutai a adopté une approche proactive face aux défis de l’authentification audio.

Donc au lieu de tenter de prévenir l’inévitable, ils ont conçu un système de marquage numérique innovant.

Il s’agit d’une technique qui intègre des signatures sonores indétectables pour l’oreille humaine dans les fichiers audio produits par Moshi.

Alors, en cas de doute sur l’origine d’un enregistrement, ce système permet de vérifier s’il a été généré par leur IA.

Kyutai a également accordé une attention particulière à la sécurité et à l’éthique dans la constitution de ses données d’entraînement.

Cette approche combine des sources vérifiées et des dialogues générés artificiellement. Ce qui évite les problèmes de droits d’auteur qui ont affecté d’autres acteurs majeurs du secteur. Dont OpenAI qui est actuellement en litige avec des organes de presse.

Disponible sur MacBook Pro et bientôt sur les smartphones

Kyutai a aujourd’hui franchi une étape importante en rendant Moshi compatible avec les processeurs graphiques des ordinateurs portables. En particulier ceux des MacBook Pro équipés de puces M.

Bien qu’une démonstration en direct de cette exécution locale n’ait pas pu être menée à terme à cause d’un problème technique, il s’agit tout de même d’une vraie prouesse technologique.

Mais l’ambition de Kyutai ne s’arrête pas là. L’entreprise a annoncé son intention d’adapter Moshi pour qu’il fonctionne sur smartphones.

On attend donc sa disponibilité pour les appareils mobiles pour pouvoir tester l’étendue de son potentiel.

Kyutai tiendra-t-elle son pari avec Moshi ?

Kyutai se distingue par son statut de laboratoire de recherche à but non lucratif. Les 300 millions d’euros apportés par Niel, Saadé et Schmidt sont considérés comme des dons.

La startup peut ainsi se concentrer davantage sur l’avancement de la recherche plutôt que sur le retour sur investissement.

L’entreprise a néanmoins fixé un autre objectif, celui de garder les talents français en France. Mais la recherche d’une option plus permissive est de mise pour le déploiement de Moshi en Open source.

La question est alors de savoir si Kyutai va le déployer sous la licence Apache ou MIT. Restez connecté pour vous tenir informé des détails.

Partager l'article :