L'IA au service d'un filtrage sur-mesure des bruits dans les casques

L'utilisation de l'intelligence artificielle se diversifie de plus en plus. Récemment, des chercheurs de l'Université de Washington ont mis à profit cette technologie pour mettre au point un système audio intégré à un casque. Celui-ci offre aux utilisateurs la possibilité de sélectionner les bruits qu'ils souhaitent filtrer.

Une expérience sonore personnalisée

Les casques anti-bruits classiques permettent de créer une bulle de silence en filtrant les sons ambiants. Il neutralise uniformément tous les bruits de fond. Ce qui les rend pratiques et particulièrement utiles pour les appels ou réunions en ligne. Cependant, dans certaines situations, il peut être utile d'entendre certains bruits spécifiques.

Par exemple, si vous télétravaillez à domicile avec un nouveau-né, vous aimeriez sans doute pouvoir entendre ses pleurs entre deux réunions. Ou encore, lorsque vous faites le ménage, vous préféreriez supprimer uniquement le bruit de votre aspirateur et continuer d'entendre quelqu'un sonner ou frapper à la porte.

Et lorsque vous faites une promenade à l'extérieur, vous souhaiteriez peut-être pouvoir entendre certains sons spécifiques de l'environnement. Par exemple, percevoir les klaxons des voitures reste essentiel pour votre sécurité. De même, prendre du temps pour se détendre dans un parc bondé en pleine ville, en écoutant seulement les oiseaux, sans être perturbé par les conversations ou les sirènes des pompiers qui passent, peut vraiment rendre la relaxation plus agréable.

Afin de répondre à ce besoin de filtrage audio sélectif, des chercheurs en machine learning et intelligence artificielle ont développé le concept d'« audition sémantique ». Dans cette optique, ils ont conçu un réseau neuronal capable de fonctionner sur smartphone.

20 types de sons au choix à filtrer

Pour filtrer les bruits ambiants indésirables, les écouteurs captent tous les sons environnants et les transmettent à un smartphone connecté. Grâce à des algorithmes d'apprentissage en profondeur ou deep learning ce dernier supprime d'abord tous les bruits de fond. Ensuite, l'utilisateur peut sélectionner parmi 20 catégories les sons spécifiques qu'il souhaite continuer à entendre. Cela inclut les pleurs de bébé, les gazouillis d'oiseaux, les sirènes, etc. Seuls les sons des catégories choisies seront diffusés par les casques.

Pourquoi les chercheurs ont-ils privilégié un smartphone plutôt que de puissants serveurs distants pour le traitement audio en temps réel ? La raison tient à l'impératif de synchronisation parfaite entre le son filtré et les sens visuels des utilisateurs. Le moindre décalage temporel, même minime, serait perceptible et gênant. Les algorithmes neuronaux doivent donc analyser et traiter chaque fréquence en moins d'un centième de seconde.

C'est pour garantir cette synchronisation en temps réel, essentielle à une expérience immersive optimale, qu'ils ont fait le choix d'un traitement local sur smartphone plutôt que d'un puissant serveur distant.

Des résultats satisfaisants dans l'ensemble

Ce système d'audition sémantique a été testé par 22 participants dans divers environnements. Leurs retours sont globalement positifs : ils considèrent la qualité audio du rendu filtré supérieure à l'enregistrement original. Cependant, ils ont noté que le système peine encore à distinguer certains sons assez similaires, comme la parole et le chant.

Pour améliorer les résultats, les chercheurs indiquent qu'un entraînement des algorithmes sur davantage de données réelles est nécessaire. En enrichissant les modèles neuronaux avec plus d'exemples sonores variés, la précision du filtrage sémantique pourra être affinée.

Partager l'article :