Menu
dans

L’IA sera bientôt capable de lire sur vos lèvres

ia lire sur les lèvres

Moyennement, une personne normale arrive à déchiffrer un mot sur cinq grâce à la lecture labiale. Mais à l’heure où nous avions rédigé ces lignes, l’IA a surpassé l’être humain dans l’action de lire sur les lèvres.

Selon les études, la majorité des individus sont capables de lire sur les lèvres. Mais leur capacité à trouver le bon mot ne dépasse pas les 20 %. Pour les lecteurs labiaux chevronnés, le taux de réussite varie entre 4 et 5 mots corrects sur une phrase de 12 mots. En 2011, l’Université de l’Oklahoma a également réalisé quelques tests et les résultats obtenus étaient encore assez bas. Le taux de précision était seulement de 10 %.

Pour les modèles d’IA, lire sur les lèvres ressemble de plus près à un jeu. Si l’être humain a un score de 3/10, les systèmes d’apprentissage automatique modernes arrivent à obtenir un taux de précision de 95 %. L’enjeu est donc important pour l’avenir des cinémas muets et de la communication avec les personnes non parlantes. On aura un jour des systèmes de deep learning pouvant interpréter la dictée silencieuse.

Une IA capable de lire sur les lèvres : ce qu’en pense le Dr Fabian Campbell-West

Selon le Dr Fabian Campbell-West, directeur technique chez Liopa, la parole est divisée en deux parties. Il y a l’unité auditive (ce qu’entend une personne) et l’unité visuelle (ce qu’une personne lit sur les lèvres). C’est plutôt sur la première unité que se concentrent davantage les équipes de développeurs d’applications de traitement de la parole, en se basant sur les mouvements des lèvres.

 

D’un autre côté, le Dr Campbell-West a ajouté qu’il y a plus de phonèmes (unités audibles) que de visèmes (unités visuelles) dans une parole. Cependant, il y a une grande différence entre les méthodes humaines pour lire sur les lèvres et celle adoptées par l’IA.

Pour les machines d’intelligence artificielle, l’objectif est de convertir les informations visuelles en textes écrites. Par contre, pour les humains, le but est de comprendre la partie audible.

IA et lecture labiale : un enjeu majeur pour le deep learning

L’enjeu de cette expérience est avant tout d’automatiser la lecture labiale en ayant recours à des modèles de machine learning. Mais un obstacle majeur vient freiner l’atteinte de l’objectif. On parle ici de l’absence de données de qualité qui constituent la principale solution pour faciliter la lecture labiale chez les IA. Pour y arriver, on a aujourd’hui recours à des techniques visant à utiliser des éléments visuels pour que l’intelligence artificielle puisse comprendre et interpréter l’information.

Les scientifiques vont alors baser leurs recherches sur la VSR (reconnaissance visuelle de la parole) ou l’ASR (reconnaissance vocale automatisée). Mais la VSR est encore en phase de développement et le projet n’est pas encore assez mature, ajoute le Dr Campbell-West. L’l’application développée par Liopa, SRAVI, sera bientôt opérationnelle, ce qui  permettra aux personnes hospitalisées de communiquer avec des simples gestes des lèvres.

Laisser un commentaire

Quitter la version mobile