Guide complet de la reconnaissance vocale

La reconnaissance vocale est une technologie assez connue. Elle facilite l’interaction humaine avec les appareils et les applications. Mais derrière cette facilité d’utilisation se cache une technologie complexe.

Des assistants vocaux aux contrôles des véhicules, la reconnaissance vocale semble déjà être un acquis. Il nous suffit de prononcer une simple phrase pour allumer, éteindre, activer ou désactiver des appareils intelligents. Mais savons-nous réellement comment ces dispositifs arrivent à comprendre ce que nous leur dictons ? Nous vous invitons à découvrir tout le processus derrière cette technologie et les applications dans lesquelles elle excelle.

À la découverte de la reconnaissance vocale

Au premier abord, la reconnaissance vocale nous facilite la vie. Elle permet de contrôler divers appareils et applications sans bouger le petit doigt. En effet, grâce à cette technologie, nous pouvons contrôler les smartphones, les véhicules intelligents et même les maisons intelligentes d’une simple commande vocale.

Retour au commencement

Comme toute invention technologique, la reconnaissance vocale a bien commencé quelque part. C’est dans les années 1950 qu’elle a vu le jour, avec Audrey. Il s’agit d’un système développé par les laboratoires Bell. Il peut reconnaître les chiffres de 1 à 9 prononcés par la même voix. La prochaine révolution était le Shoebox d’IBM qui pouvait reconnaître et différencier la prononciation de 16 mots anglais. Ensuite, Carnegie Mellon a fait un bond avec Harpy qui pouvait prendre en charge 1000 mots.

Les années 1990 ont été marquées par l’émergence de l’informatique personnelle. En termes de reconnaissance vocale, Bell a développé les premiers systèmes interactifs. La technologie a atteint un taux d’exactitude de 80 % dans les années 2000. Puis, c’est le géant du net qui a mis la technologie à la disposition de millions d’utilisateurs pour collecter des données, avec Google Voice.

À l’heure actuelle, Google Assistant, Siri et Alexa dominent largement la technologie. Néanmoins, elle est également utilisée dans d’autres domaines dont nous reparlerons plus tard. Par ailleurs, les nouvelles avancées tel que le cloud computing et le big data ont contribué à améliorer les systèmes de reconnaissance vocale, malgré les défis qui s’imposent.

La reconnaissance vocale : comment ça fonctionne ?

Dans tous les cas, la parole est plus rapide que l’écriture d’un texte pour créer un document ou pour formuler une demande. De la même manière, la reconnaissance vocale accélère le traitement d’une requête faite sur un ordinateur, un smartphone ou un autre dispositif. A la différence des humains, les dispositifs informatiques ne sont pas câblés pour acquérir naturellement le langage. Autrement dit, les développeurs doivent créer un système qui leur permet de l’apprendre.

Avant toute chose, un système doté de la capacité de reconnaissance vocale doit être équipé d’un microphone pour capter la voix d’une personne. La voix, qui correspond à une vibration, est transmise au système en forme d’onde. Le matériel du système, notamment la carte son, la convertit en signal numérique afin que le logiciel de reconnaissance vocale puisse l’analyser. L’objectif dans cette étape est d’enregistrer les phonèmes qui distinguent un mot d’un autre. Enfin, ces unités sonores sont utilisées pour reconstruire des mots.

Par ailleurs, pour comprendre le langage humain, les systèmes informatiques utilisent le Natural Language Processing (NLP). En termes simples, il s’agit d’une technologie d’intelligence artificielle qui permet de transformer les entrées linguistiques en données informatiques exploitables.

Où trouver un logiciel

Certes, il est toujours possible de construire son propre logiciel de codage et de collecte de données vocales. Toutefois, certaines solutions sont déjà disponibles et prêtes à être utilisées. Par exemple, les interfaces de programmation d’applications (API) commerciales proposent des algorithmes de reconnaissance vocale, mais celles-ci ne sont pas personnalisables.

Il existe d’autres API faciles à utiliser qui permettent de collecter des données vocales et de développer des logiciels, en fonction des besoins des utilisateurs. Nous pouvons notamment citer le modèle Speech-to-text de Google Cloud, Speech to text d’IBM Watson ou Automatic Speech Recognition (ASR) de Nuance.

Une modélisation acoustique et linguistique

La langue est un concept complexe avec différents éléments à prendre en compte. Ainsi, la construction d’un système de reconnaissance vocale utilise principalement trois modèles : l’acoustique, la prononciation et le langage.

Le modèle acoustique consiste à capter une parole sous forme d’onde pour la décomposer en fragments de phonèmes. En termes de prononciation, les sons sont liés pour former des mots en fonction de leurs représentations phonétiques. Enfin, le modèle de langage permet de lier les mots pour prédire la séquence de mots (phrase). Les modélisations acoustique et linguistique peuvent être combinées pour proposer la séquence la plus probable pour une entrée vocale.

Les défis de la reconnaissance vocale

Encore une fois, les machines n’ont pas la capacité naturelle de comprendre le langage humain. D’autant plus que celle-ci contient différentes variables qui compliquent davantage sa compréhension. Voici donc les principaux défis auxquels les systèmes de reconnaissance vocale font face.

Les langues, les accents et les ponctuations

Malgré la richesse des bases de données utilisées par les logiciels, ils ne reconnaissent pas toutes les langues. Autrement dit, les développeurs de ces systèmes doivent définir les régions cibles pour adapter leur logiciel avec les langues et les accents à prendre en compte. Néanmoins, certaines API, comme celle de Google, prennent en charge différents accents pour faciliter la tâche. Elles permettent de développer des applications plus performantes à ce niveau.

En outre, les ponctuations sont des autres éléments de la langue qui peuvent causer des dysfonctionnements dans les algorithmes de reconnaissance vocale. En effet, il existe une infinité de phrases avec différentes ponctuations qui peuvent en modifier le sens.

Choisir les bons mots

Un autre défi de la reconnaissance vocale est l’homophonie. Pour faire simple, l’onde qui correspond à la prononciation d’un mot peut également correspondre à un autre mot. La difficulté pour le système consiste donc à choisir le bon mot.

Pour procéder, il doit s’appuyer sur des indices contextuels en analysant les trigrammes. La méthode utilise une base de données de séquences de trois mots qui sont fréquemment utilisés. Entre autres, sur la base de la prononciation de deux mots quelconques, l’algorithme suggère le troisième mot. Pour vous donner un exemple, pensez à la saisie prédictive sur les claviers. En tapant « comment allez », elle suggérera automatiquement « vous ». Et à mesure que vous utilisez le clavier, il proposera les phrases que vous écrivez le plus souvent.

De la même manière, les logiciels de reconnaissance vocale analysent chaque son et utilisent les algorithmes pour trouver le mot le plus probable dans la même langue. Ils les transcrivent ensuite en texte.

Les cas d’usages de la reconnaissance vocale

La reconnaissance vocale a donc fait un long chemin depuis son invention jusqu’à nos jours. Elle évolue dans divers domaines et dans différentes applications. Quand il s’agit d’interagir avec les appareils par le biais de la voix, nous pensons généralement aux assistants vocaux. Mais il existe aussi d’autres technologies de reconnaissance vocale.

Les assistants vocaux

La fonction de reconnaissance vocale des assistants virtuels permet aux utilisateurs de contrôler tout un écosystème intelligent avec leur voix.

Alexa d’Amazon

Alexa est l’assistant vocal d’Amazon, présenté pour la première fois en 2014. Il est principalement intégré dans les enceintes connectées de la société, mais d’autres appareils peuvent également fonctionner avec ce système. Bien qu’Alexa a plus de mal à reconnaître certains mots, comparé aux autres assistants vocaux, ses capacités d’apprentissage et d’adaptation lui permettent de remédier à ce léger souci.

Siri d’Apple

Siri est le premier assistant vocal devenu populaire en 2011. Après son acquisition par Apple, sa fonction de reconnaissance vocale est actuellement disponible dans les iPhone, iPad, Apple Watch, HomePod, les ordinateurs Mac et Apple TV. C’est principalement Siri qui a donné à Apple un avantage sur l’adoption précoce de la marque.

Google Assistant

En termes de reconnaissance vocale, Google Assistant a également fait ses preuves. Il aide les utilisateurs à trouver tout ce qu’ils recherchent sur internet en utilisant une commande vocale. Il affiche un taux de précision de 95 % pour l’anglais américain, ce qui le place bien en dessus de tous les assistants vocaux.

Les appareils connectés

Outre les assistants vocaux, la reconnaissance vocale permet également de contrôler directement différents appareils connectés.

La reconnaissance vocale dans une voiture

Le fait de libérer les mains d’un conducteur dans une voiture est un grand avantage en termes de sécurité. En effet, les systèmes de reconnaissance vocale embarqués permettent d’envoyer un SMS, de passer un appel, d’envoyer de la musique, etc. Mais toutes ces actions peuvent être exécutées sans lâcher le volant.

La maison intelligente

Certes, la plupart des maisons connectées disposent d’un assistant vocal qui sert de central de contrôle, pour ainsi dire. Néanmoins, certains appareils, comme les enceintes connectées, les caméras ou autres peuvent tout simplement recevoir des ordres directs. Avec une capacité de reconnaissance vocale, il est possible de les contrôler juste avec la voix.

Les interfaces vocales

Il peut s’agir d’interface professionnelle, de jeux vidéo ou internet. En effet, certaines entreprises utilisent des outils de reconnaissance vocale pour répondre aux appels des clients. L’industrie des jeux vidéo s’est également lancée dans le développement de cette technologie pour s’adapter à l’évolution de la technologie. Et pour finir, en dehors de Google, d’autres acteurs du web, tel que Baidu, proposent également une fonctionnalité de reconnaissance vocale pour lancer leur moteur de recherche.

Partager l'article :