30 minutes d’audio, plusieurs langues, 0,001 $/min, le modèle Voxtral est là, et c’est du lourd

Mistral AI, notre champion de l’IA vient de lancer un modèle vocal open source baptisé Voxtral. On espère, grâce à ce lancement, pouvoir rivaliser avec les géants de l’intelligence vocale tels que Google, OpenAI et Meta.

Dédié aux professionnels, le modèle Voxtral se décline sous deux variantes. La première, Voxtral Small compte 24 milliards de paramètres.

Le deuxième, Voxtral Mini, compte seulement 3 milliards de paramètres. Cela dit, les deux modèles répondent à deux cas d’usage bien spécifiques.

Si Voxtral Small est destiné à des usages complexes, Voxtral Mini est plutôt destiné à un déploiement disposant de ressources limitées.

Ooutre Voxtral Mini et Voxtral Small, Mistral a également déployé un modèle spécifique à la transcription vocale : Voxtral Mini Transcribe.

Mais que vaut ce nouveau modèle vocal de Mistral ?

Voxtral se positionne comme une solution plus fiable que les outils classiques de reconnaissance vocale (ASR) et que les API fermées souvent coûteuses.

Mistral AI a alors conçu le modèle Voxtral pour traiter de longs fichiers audio. Cela dit, sa capacité lui permet de transcrire jusqu’à 30 minutes de contenu.

Le modèle peut par ailleurs analyser jusqu’à 40 minutes d’audio, grâce à une fenêtre de 32 000 tokens.

Le système repose sur le modèle linguistique Mistral Small 3.1 et est capable de répondre à la voix, de faire des résumés audio ou de transformer une commande orale en appel API ou en instruction pour un serveur.

Le modèle prend en charge plusieurs langues. Notamment le français, l’anglais, l’espagnol, l’arabe, le portugais, l’hindi, l’allemand, le néerlandais et l’italien.

In our continued commitment to open-science, we are releasing the Voxtral Technical Report: https://t.co/fIH9uW8qdZ

The report covers details on pre-training, post-training, alignment and evaluations. We also present analysis on selecting the optimal model architecture, which… pic.twitter.com/Pq0yGQEj5o
— Mistral AI (@MistralAI) July 22, 2025

Voxtral vs GPT-4o et Gemini 2.5 Flash

D’après les premiers résultats des tests que Mistral a partagés, le modèle open source Voxtral surpasse de loin ses concurrents. En particulier Gemini 2.5 Flash, Whisper v3 et GPT-4o Mini Transcribe.

Il consommerait même moins de ressources par rapport à ces rivaux les plus performants. On peut d’ailleurs voir dans l’image ci-dessous les performances de Voxtral sur plusieurs langues.

En ce qui concerne la traduction, Voxtral tient même tête à GPT-4o Mini et Gemini et montre qu’il est aussi très compétitif dans ce domaine.

Les deux modèles Voxtral déjà disponible en télépchargement

Mistral AI a déployé les deux modèles Voxtral sous licence Apache 2.0. Si vous souhaitez les tester, vous pouvez déjà les télécharger sur Hugging Face.

Voxtral est aussi accessible via une API à partir de 0,001 $/minute, un tarif qui, d’après moi, est bien plus bas que celui des autres solutions sur le marché.

Sachez également que Mistral prévoit d’intégrer Voxtral à Le Chat, l’assistant et le chatbot IA de Mistral AI.

Sinon, pour des usages plus sensibles, comme dans le secteur médical ou juridique, il est possible de déployer Voxtral de façon privée et sécurisée.

Il est aussi possible que Mistral AI ajoute prochainement de nouvelles fonctions comme la découpe automatique de l’audio, la reconnaissance des intervenants (diarisation) ou encore la détection des émotions.

Partager l'article :

Facebook
Twitter
LinkedIn

Restez à la pointe de l'information avec
INTELLIGENCE-ARTIFICIELLE.COM !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Actualités

Kits.AI : la manipulation vocale au potentiel illimité

La plateforme s’impose comme le studio vocal IA incontournable pour le clonage de voix chantées, la synthèse vocale et le mastering éthique dès 9,59 $/mois.

15 juillet 2026

🗣️ Voix IA

Traduction vocale : les professionnels prêts à adopter l’IA

Selon une étude DeepL menée auprès de professionnels français, la traduction vocale en temps réel suscite un intérêt massif. L’intelligence artificielle ne se limite plus

3 juin 2026

🗣️ Voix IA

Google Vids : 30 nouvelles voix expressives boostées par Gemini 3.1 Flash TTS

Avec Google Vids, la narration IA gagne enfin en relief. Derrière cette évolution, Gemini 3.1 Flash TTS insuffle émotion, rythme et naturel à 30 nouvelles

22 avril 2026

🗣️ Voix IA

L’IA vocale devient expressive avec Gemini 3.1 Flash TTS

Google dévoile Gemini 3.1 Flash TTS, un modèle de synthèse vocale ultra-réaliste pilotable par des balises audio. Google a franchi une nouvelle étape dans l’IA

17 avril 2026

🗣️ Voix IA

Google accélère ses conversations vocales avec Gemini 3.1 Flash Live

Plus réactive, dotée d’une mémoire étendue et efficace en plein brouhaha : Google déploie Gemini 3.1 Flash Live pour transformer nos smartphones en véritables interlocuteurs.

30 mars 2026

🗣️ Voix IA

IBM et ElevenLabs : Watsonx trouve enfin sa voix

IBM intègre les technologies de synthèse vocale d’ElevenLabs à sa plateforme Watsonx. Ce partenariat vise à humaniser l’IA d’entreprise pour favoriser son adoption massive par

26 mars 2026

30 minutes d’audio, plusieurs langues, 0,001 $/min, le modèle Voxtral est là, et c’est du lourd

Mais que vaut ce nouveau modèle vocal de Mistral ?

Voxtral vs GPT-4o et Gemini 2.5 Flash

Les deux modèles Voxtral déjà disponible en télépchargement

Kits.AI : la manipulation vocale au potentiel illimité

Traduction vocale : les professionnels prêts à adopter l’IA

Google Vids : 30 nouvelles voix expressives boostées par Gemini 3.1 Flash TTS

L’IA vocale devient expressive avec Gemini 3.1 Flash TTS

Google accélère ses conversations vocales avec Gemini 3.1 Flash Live

IBM et ElevenLabs : Watsonx trouve enfin sa voix

IA, conformité et souveraineté : l’open source européen pour la protection des données publiques

L’IA sur-mesure, un impératif légal face à l’urgence de la conformité

Pourquoi les femmes sont au cœur de l’urgence légale et éthique de l’IA ?

Mais que vaut ce nouveau modèle vocal de Mistral ?

Voxtral vs GPT-4o et Gemini 2.5 Flash

Les deux modèles Voxtral déjà disponible en télépchargement

ARTICLES SIMILAIRES

Tendances

La newsletter IA du futur

Interviews