Pas plus tard qu’hier, on a eu vent du départ de trois figures emblématiques d’OpenAI. Aujourd’hui, le mode vocal avancé de ChatGPT, même sous le modèle GPT-4o, le plus puissant en plus, fournit de réponses de plus en plus loufoques. Quitte à dire que ce sera bientôt la fin pour OpenAI après deux ans de règne en tant que leader sur le marché de l’IA générative.
Après deux retards quant à date de sortie, le mode vocal avancé de ChatGPT voit enfin le jour. Sauf que les réponses qu’il génère semblent parfois déplacées.
Est-ce un bug dû à l’entraînement du modèle, étant donné que c’est le premier modèle qui a été formé sur la voix, les images, et les textes ?
Ou bien s’agit-il d’un manque de performance global de ChatGPT ? En tout cas, les experts d’OpenAI, du moins ceux qui n’ont pas démissionné, soulignent qu’il s’agit d’un comportement tout à fait normal. Mais ce n’est pas le cas apparemment !
Quand l’IA se passe du consentement de son interlocuteur
C’est sur un rapport d’Ars Technica que l’on a pu découvrir ce comportement étrange du mode vocal avancé de ChatGPT.
Ladite fonctionnalité aurait en effet eu du mal à comprendre la voix de son interlocuteur quand celui-ci l’a utilisé dans un environnement bruyant.
« Je ne sais pas si c’est normal ou non, mais ChatGPT m’a répondu avec des réponses plutôt dérangeantes. Comme des gémissements, des coups de feu, ou encore des cris assez violents ». C’est ce qu’a affirmé ce témoin souhaitant rester anonyme.
Parallèlement, le mode vocal avancé de ChatGPT aurait également tendance à imiter ou à reproduire la voix de son interlocuteur sans que celui-ci lui donne son accord.
Cette situation fait référence à une violation du consentement de l’utilisateur et, dans d’autres circonstances, d’une violation du droit d’auteur.
Les réponses d’OpenAI
OpenAI a pris diverses mesures pour adapter son modèle GPT-4o aux enjeux éthiques et légaux. En particulier ceux qui concernent l’audio et les droits d’auteur.
L’entreprise a cependant modifié ses filtres textuels pour les appliquer aux conversations vocales. Elle a donc développé de nouveaux filtres pour empêcher la production de contenus musicaux non autorisés.
Par ailleurs, GPT-4o a été conçu pour rejeter les demandes de contenu protégé par le droit d’auteur, y compris l’audio.
Mais OpenAI reconnaît qu’il est quasiment impossible de former les grands modèles d’IA sans utiliser des données protégées par le droit d’auteur.
Pour faire face à cette réalité, l’entreprise a établi des accords de licence avec certains fournisseurs de données.
Des mesures prises pour y remédier ?
GPT-4o intègre plusieurs garde-fous éthiques pour éviter que de telles situations ne se reproduisent.
À l’heure actuelle, OpenAI a décidé de programmer le modèle pour ne pas identifier les individus en fonction de leur manière de parler.
Le modèle évite également de répondre à des questions potentiellement problématiques comme l’évaluation de l’intelligence d’un interlocuteur.
Le mode vocal avancé de GPT-4o peut aussi rejeter toutes tentatives à produire un langage violent ou à connotation sexuelle.
Certaines catégories de contenu sont d’ailleurs totalement interdites, notamment les discussions liées à l’extrémisme ou à l’automutilation.
- Partager l'article :