Mistral AI, notre champion de l’IA vient de lancer un modèle vocal open source baptisé Voxtral. On espère, grâce à ce lancement, pouvoir rivaliser avec les géants de l’intelligence vocale tels que Google, OpenAI et Meta.
Dédié aux professionnels, le modèle Voxtral se décline sous deux variantes. La première, Voxtral Small compte 24 milliards de paramètres.
Le deuxième, Voxtral Mini, compte seulement 3 milliards de paramètres. Cela dit, les deux modèles répondent à deux cas d’usage bien spécifiques.
Si Voxtral Small est destiné à des usages complexes, Voxtral Mini est plutôt destiné à un déploiement disposant de ressources limitées.
Ooutre Voxtral Mini et Voxtral Small, Mistral a également déployé un modèle spécifique à la transcription vocale : Voxtral Mini Transcribe.
Mais que vaut ce nouveau modèle vocal de Mistral ?
Voxtral se positionne comme une solution plus fiable que les outils classiques de reconnaissance vocale (ASR) et que les API fermées souvent coûteuses.
Mistral AI a alors conçu le modèle Voxtral pour traiter de longs fichiers audio. Cela dit, sa capacité lui permet de transcrire jusqu’à 30 minutes de contenu.
Le modèle peut par ailleurs analyser jusqu’à 40 minutes d’audio, grâce à une fenêtre de 32 000 tokens.
Le système repose sur le modèle linguistique Mistral Small 3.1 et est capable de répondre à la voix, de faire des résumés audio ou de transformer une commande orale en appel API ou en instruction pour un serveur.
Le modèle prend en charge plusieurs langues. Notamment le français, l’anglais, l’espagnol, l’arabe, le portugais, l’hindi, l’allemand, le néerlandais et l’italien.
In our continued commitment to open-science, we are releasing the Voxtral Technical Report: https://t.co/fIH9uW8qdZ
The report covers details on pre-training, post-training, alignment and evaluations. We also present analysis on selecting the optimal model architecture, which… pic.twitter.com/Pq0yGQEj5o— Mistral AI (@MistralAI) July 22, 2025
Voxtral vs GPT-4o et Gemini 2.5 Flash
D’après les premiers résultats des tests que Mistral a partagés, le modèle open source Voxtral surpasse de loin ses concurrents. En particulier Gemini 2.5 Flash, Whisper v3 et GPT-4o Mini Transcribe.
Il consommerait même moins de ressources par rapport à ces rivaux les plus performants. On peut d’ailleurs voir dans l’image ci-dessous les performances de Voxtral sur plusieurs langues.
En ce qui concerne la traduction, Voxtral tient même tête à GPT-4o Mini et Gemini et montre qu’il est aussi très compétitif dans ce domaine.

Les deux modèles Voxtral déjà disponible en télépchargement
Mistral AI a déployé les deux modèles Voxtral sous licence Apache 2.0. Si vous souhaitez les tester, vous pouvez déjà les télécharger sur Hugging Face.
Voxtral est aussi accessible via une API à partir de 0,001 $/minute, un tarif qui, d’après moi, est bien plus bas que celui des autres solutions sur le marché.
Sachez également que Mistral prévoit d’intégrer Voxtral à Le Chat, l’assistant et le chatbot IA de Mistral AI.
Sinon, pour des usages plus sensibles, comme dans le secteur médical ou juridique, il est possible de déployer Voxtral de façon privée et sécurisée.
Il est aussi possible que Mistral AI ajoute prochainement de nouvelles fonctions comme la découpe automatique de l’audio, la reconnaissance des intervenants (diarisation) ou encore la détection des émotions.
- Partager l'article :
