in

Test de Turing – Un test pour mesurer l’intelligence artificielle

test de turing

Le test de Turing est un test permettant de vérifier la capacité d'une machine à faire preuve de signes d'intelligence humaine. Encore aujourd'hui, ce test fait figure de standard pour déterminer l'intelligence d'une machine, en dépit de nombreuses critiques formulées au fil des années.

Le principe du Test de Turing est simple. Un évaluateur humain est chargé de juger une conversation textuelle entre un humain et une machine. L'évaluateur sait que l'un des deux participants est une machine, mais ne sait pas lequel. S'il n'est pas en mesure de discerner l'homme de la machine après 5 minutes de conversation, la machine a passé le test avec succès. Le test ne mesure pas la capacité d'une machine à répondre correctement à une question, mais à quel point ses réponses ressemblent à celles que fournirait un humain.

Alan Turing, le créateur du test de Turing

Ce test a été créé par Alan Turing, professeur à l'université de Manchester, en 1950. Il a été présenté pour la première fois dans l'article « Computing Machinery and Intelligence ». Son objectif consistait à définir si les machines sont capables de penser. Au fil des années, ce concept a fini par prendre une place très importante dans la philosophie de l'intelligence artificielle.

Déjà en 1956, des chercheurs britanniques s'intéressaient à l'intelligence des machines. Il s'agit en effet d'un sujet régulièrement abordé par les membres du Ratio Club. Ces derniers regroupent des chercheurs britanniques en cybernétique et en électronique, et notamment Alan Turing.

En 1941 déjà, Turing aborde la notion d'intelligence des machines, et mentionne l'intelligence des ordinateurs en 1947. Il tente de déterminer, dans son rapport intitulé « Intelligent Machinery », s'il est possible pour une machine de présenter un comportement intelligent. Ce rapport semble préfigurer le test de Turing.

L'article « Computing Machinery and Intelligence », daté de 1950, est le premier de Turing à se concentrer exclusivement sur l'intelligence des machines. Dans cet article, l'homme se demande si les machines peuvent penser, et il propose un test inspiré de l'« Imitation Game ». Ce test consiste à remplacer l'un des deux humains par une machine. Plus tard, une deuxième version du test a été présentée, qui consistait à remplacer les invités par un seul juge.

Une troisième version du test a été proposée en 1952. Dans cette version, un jury pose des questions à un ordinateur, et la machine doit persuader les membres du jury qu'elle est humaine. C'est cette version qui est couramment utilisée aujourd'hui.

ELIZA et PARRY, les deux premiers programmes capables de passer le Test de Turing

En 1966, Joseph Weizenbaum a créé un programme capable de passer le test de Turing. Baptisé ELIZA, ce programme était en mesure d'examiner un texte à la recherche de mots-clés pour formuler une réponse cohérente. Si aucun mot-clé n'est trouvé, ELIZA répond de façon générique. Le programme était également conçu pour imiter le comportement d'un psychothérapeute rogérien, lui permettant d'assumer le fait qu'il ne connaît quasiment rien du monde réel. Grâce à ces subterfuges, ELIZA parvint à convaincre de nombreuses personnes qu'il était une vraie personne. Ce programme est considéré comme le premier à parvenir à passer le Test de Turing.

En 1972, Kenneth Colby créa PARRY, un programme similaire à ELIZA, imitant le comportement d'un schizophrène paranoïaque. Pour évaluer ce programme, une variante du Test de Turing fut utilisée. Un groupe de psychiatres fut chargé d'analyser des patients humains et des ordinateurs faisant tourner PARRY. Un autre groupe de 33 psychiatres reçut les transcriptions de ces conversations. Les deux groupes furent chargés d'identifier quels patients étaient humains, et lesquels étaient des ordinateurs. 52% du temps, les psychiatres furent trompés.

De nos jours, de tels programmes, baptisés chatbots, continuent à tromper les êtres humains. Dans certains cas, ces programmes avancés peuvent être utilisés à des fins malhonnêtes. Par exemple, le malware CyberLover cherche à convaincre les internautes de révéler des informations sur leur identité ou à visiter un site web contenant des virus. Ce programme traque les personnes cherchant des relations amoureuses en ligne afin de collecter leurs données personnelles.

Le contre-argument de la chambre chinoise

Dans un article daté de 1980, intitulé Minds, Brains, and Programs, John Searle affirme que le Test de Turing ne peut être utilisé pour déterminer si une machine peut penser. Selon lui, des logiciels comme ELIZA peuvent passer le test en manipulant des symboles sans pour autant les comprendre. Cette intelligence artificielle n'est donc pas capable de penser.

Le chercheur prend l'exemple d'une chambre dans laquelle une personne ne comprenant pas le chinois serait enfermée. À condition d'avoir accès à un ensemble de règles suffisamment précises, la personne pourrait produire des réponses en chinois, et converser avec une personne sinophone, sans avoir besoin de comprendre le chinois.

Cette personne se contenterait de simuler la compréhension du chinois. Pour John Searle, c'est exactement la méthode adoptée par ELIZA et d'autres programmes pour passer le test de Turing. Ces intelligences artificielles se contentent de simuler l'intelligence humaine.

Les arguments comme ceux de Searle ont entrainé un débat plus profond sur la nature de l'intelligence, la possibilité d'une intelligence des machines, et la valeur du Test de Turing. Le postulat de Searle lui-même fut vivement critiqué. Ce débat s'est poursuivi jusqu'à la fin des années 1990.

Le Prix Loebner, grande compétition des chatbots

Chaque année depuis novembre 1991, le Prix Loebner met des intelligences artificielles en compétition pour passer le Test de Turing. Créée par Hugh Loebner, cette compétition a pour but de faire avancer les recherches dans le domaine de l'intelligence artificielle.

De 1991 à 2003, le Prix a été organisé par le Cambridge Center for Behavorial Studies du Massachusetts, aux États-Unis. La première édition du tournoi a mené à une nouvelle discussion sur la fiabilité du Test de Turing. Le Prix a été emporté par un programme dépourvu d'intelligence, néanmoins parvenu à tromper des interrogateurs naïfs en imitant des fautes de frappe dignes d'un humain. Les limites du test ont ainsi été démontrées. De fait, certains chercheurs ont commencé à penser que ce test avait pour seul effet de freiner la recherche dans le domaine de l'IA.

Chaque année, une médaille de bronze a été décernée au programme informatique démontrant le comportement conversationnel le plus proche d'un humain. En revanche, le prix d'argent, basé uniquement sur du texte, et le prix d'or, basé sur le visuel et l'audio, n'ont jamais été remportés.

En 2000, 2001 et 2004, la médaille a été remportée par A.L.I.C.E (Artificial Linguistic Internet Computer Entity), tandis que Jabberwacky l'a remportée en 2005 et 2006. Le Prix Loebner teste l'intelligence conversationnelle, et est généralement remporté par des chatbots ou des ACE (Artificial Conversational Entities).

Au commencement, les conversations étaient restreintes à un seul sujet, et les interrogateurs ne pouvaient poser qu'une question. Les règles ont été assouplies à partir de 1995, et ont depuis beaucoup varié d'une édition à l'autre. En 2003, les interactions pouvaient durer 5 minutes. De 2004 à 2007, elles pouvaient durer plus de 20 minutes.

En 2008, les organisateurs Kevin Warwick et Huma Shah ont décidé de revenir à une durée de 5 minutes, conformément à l'article original de 1950. Notons que le vainqueur de l'édition 2008, Elbot, n'imite pas un humain. Sa personnalité est celle d'un robot. Il est cependant parvenu à tromper trois interrogateurs humains. En 2009, le temps de conversation a été de nouveau étendu à 10 minutes. Puis, en 2010, il a été prolongé à 25 minutes.

En 2014, pour commémorer le 60ème anniversaire de la mort de Turing, une compétition a été organisée à Royal Society London par Huma Shah et Kevin Warwick. Ce grand tournoi a été remporté par le chatbot russe Eugene Goostman. Cette IA est parvenue à convaincre 33% des juges qu'elle était humaine.

Aux yeux des organisateurs de cette compétition, c'est au cours de cet événement que le test a réellement été passé pour la première fois. En effet, jamais auparavant autant de tests simultanés n'avaient été effectués et vérifiés indépendamment. De plus, pour la première fois, les conversations n'étaient aucunement restreintes.

Le test de Turing vise à répondre à une question philosophique profonde

La question de savoir si une machine est capable de penser tourmente les philosophes depuis des centaines, voire des milliers d'années, et se posait déjà de façon sous-jacente avant même l'invention de la robotique. Cette question est au cœur de la distinction entre le dualisme et le matérialisme de l'esprit humain?

En effet, dès 1637, dans le Discours de la Méthode, René Descartes s'interroge sur des problématiques similaires. Le philosophe pointe du doigt la capacité des automates à réagir aux interactions humaines, mais souligne également leur incapacité à répondre aux paroles prononcées en leur présence de la même manière qu'un humain. C'est pour lui la principale différence entre l'Homme et la machine. Cependant, Descartes ignorait que les automates du futur dépasseraient cette barrière. De fait, il se contente de préfigurer le cadre conceptuel du Test de Turing.

Dans Pensées philosophiques, Denis Diderot quant à lui évoque les mêmes critères d'intelligence que le test de Turing. Il affirme que si un perroquet est capable de répondre à toutes les questions, ce volatile pourra sans hésitation être considéré comme intelligent. La capacité à converser était donc déjà considérée comme une preuve d'intelligence par les matérialistes.

Selon les dualistes, l'esprit n'est pas physique et ne peut donc pas être expliqué en termes purement physiques. Pour les matérialistes, l'esprit peut être expliqué physiquement, et il est donc possible de produire des esprits de manière artificielle.

En 1936, le philosophe Alfred Ayer s'est demandé comment peut-on savoir que les autres humains ont la même conscience que soi-même. Dans son livre Language, Truth and Logic, Ayer suggère un protocole pour distinguer un humain conscient d'une machine inconsciente. Selon lui, la seule façon de procéder est d'utiliser un test empirique pour déterminer la présence ou l'absence de conscience.

Forces et faiblesses du Test de Turing

Les forces du Test de Turing

Le principal atout du Test de Turing est sa simplicité. Au fil des siècles, les philosophes, scientifiques et autres psychologues ne sont jamais parvenus à définir précisément la notion d'intelligence et de pensée.

De fait, il est difficile de définir l'intelligence artificielle. Malgré ses imperfections, le Test de Turing permet au moins de mettre en place un étalon de mesure. Il se présente donc comme une approche pragmatique d'une question philosophique complexe.

Par ailleurs, ce test permet de mesurer les différents critères de l'intelligence artificielle. Pour passer le test avec succès, l'IA doit utiliser le langage naturel, la raison, la connaissance et l'apprentissage. Il est également possible d'ajouter des entrées vidéo au test, forçant la machine à utiliser la technologie de vision par ordinateur.

Un autre point intéressant du Test de Turing est qu'il n'évalue nullement les connaissances techniques d'une intelligence artificielle. Pour passer ce test, la machine ne doit pas résoudre une équation complexe ou un problème scientifique. Elle doit simplement parvenir à gagner un jeu mondain consistant à se faire passer pour une personne du sexe opposé.

De fait, ce ne sont pas les capacités de traitement de l'information ou d'accumulation de savoir qui sont mises à l'épreuve, mais plutôt la faculté à faire preuve d'empathie. La machine doit démontrer qu'elle comprend le rôle de la femme, et faire preuve de sensibilité esthétique.

En effet, comme beaucoup de spécialistes modernes de l'intelligence artificielle, Turing avait le pressentiment que l'empathie et l'intelligence émotionnelle seraient les clés permettant de développer des IA bienveillantes. Une nécessité pour éviter un éventuel soulèvement des machines digne des films de science-fiction les plus terrifiants.

Les faiblesses du test de Turing

Depuis sa création, le Test de Turing a été critiqué à maintes reprises par de nombreux philosophes et scientifiques. La fiabilité du jugement de l'interrogateur, la valeur de la comparaison entre le comportement d'un homme et d'une machine, comptent parmi les nombreux points remis en cause par les sceptiques.

On peut reprocher à ce test de ne pas vérifier directement l'intelligence d'une machine, mais plutôt sa faculté à se comporter comme un être humain. Or, le comportement humain n'est pas nécessairement un comportement intelligent. Dans certains cas, on pourrait parler de stupidité artificielle, plutôt que d'une intelligence artificielle. Par exemple, la première IA à gagner le Loebner Prize est parvenue à tromper les interrogateurs en mimant les fautes de frappe.

De même, certains comportements intelligents ne sont pas humains. Par exemple, si une machine se montre plus intelligente qu'un humain, en résolvant un problème mathématique complexe, elle risque d'échouer au test, car les interrogateurs la soupçonneront d'être une machine. C'est la raison pour laquelle plusieurs alternatives, permettant de mesurer la super-intelligence, ont été suggérées.

Par ailleurs, le Test de Turing évalue uniquement la façon dont la machine se comporte. Une machine peut passer le test en simulant un comportement intelligent ou conscient, sans pour autant comprendre la conversation. C'est le cas d'ELIZA. Ainsi, comme l'affirme John Searle, le test ne permet pas de vérifier si l'IA pense réellement ou simule la pensée. Toutefois, Turing considérait qu'il fallait d'abord déterminer la possibilité pour une machine de penser, avant de tenter d'élucider les mystères de la conscience.

Dans la pratique, les résultats du test peuvent facilement être influencés par la naïveté d'un interrogateur. Certains interrogateurs d'ELIZA ne savaient même pas qu'ils étaient éventuellement en train d'agir avec une machine. Pour remédier à ce problème, depuis 2004, les organisateurs du Loebner Prize font appel à des philosophes, des informaticiens, et des journalistes pour faire office d'interrogateurs. Malgré tout, certains continuent d'être trompés par les machines.

Un autre problème, souligné par Michael Shermer, est l'anthropomorphisme. Les êtres humains ont tendance à considérer un objet inhumain comme un humain dès qu'ils en ont la possibilité. Les Hommes parlent à leur voiture, prêtent une volonté aux forces naturelles, et prient le soleil comme un être humain. Même des statues religieuses inanimées seraient donc en mesure de passer le test.

En outre, il arrive fréquemment que les interrogateurs prennent les humains pour des machines. Pour cause, certaines réponses fournies par les humains ne sont pas toujours typiquement humaines. Ce phénomène peut favoriser les machines et leur permettre de passer le test. Autre problème, si la machine reste silencieuse pendant une conversation, l'interrogateur n'est pas en mesure d'identifier sa nature.

Face à tous ces problèmes, de nombreux chercheurs considèrent que le Test de Turing ralentit la recherche dans le domaine de l'intelligence artificielle. Il existe plusieurs méthodes plus simples pour tester des programmes, dont les objectifs sont souvent moins ambitieux que de rivaliser avec l'intelligence humaine. Ainsi, il suffit de soumettre à la machine la tâche pour laquelle elle est conçue pour vérifier son . Comme le suggèrent habilement Russell et Norvig, les avions sont testés sur leur capacité à voler, ils ne sont pas comparés à des oiseaux.

Test de Turing : les utilisations actuellement

Même si certaines variantes du test de Turing permettent de mieux comprendre l'IA, la version originale continue à être utilisée aujourd'hui. Par exemple, le prix Loebner est décerné chaque année depuis 1990 pour récompenser les programmes informatiques présentant une ressemblance avec l'être humain.

Le chatbot Eugene Goostman a été le premier à réussir le test de Turing. Il réussit avec succès à convaincre 33 % des membres du jury lors d'un concours mis en place par la Reading University en 2014. Cependant, cette réussite est sujette à des controverses. En effet, il semble qu'il n'y avait pas assez de juges et que le test n'a duré que 5 minutes.

En 2018, Duplex est parvenue à prendre un rendez-vous avec un coiffeur par téléphone devant une foule de 7 000 spectateurs. Le réceptionniste n'était absolument pas conscient qu'il ne conversait pas avec un véritable humain. Certains considèrent qu'il s'agit d'une réussite moderne du test de Turing, même si elle n'est pas basée sur le format réel du test tel qu'Alan Turing l'a conçu.

GPT-3 est considéré par certains comme ayant les meilleures chances de réussir le test dans sa forme réelle parmi toutes les technologies existantes. Cependant, même avec ses capacités avancées de génération de texte, beaucoup ont critiqué la machine. En fait, elle peut être amenée à répondre à des questions absurdes et qu'elle aurait donc du mal à répondre aux exigences du test de Turing.

Comment fonctionne le CAPTCHA ?

CAPTCHA signifie le test de Turing public complètement automatisé pour distinguer les ordinateurs des humains. Ainsi donc, cet outil permet de différencier les utilisateurs réels des utilisateurs automatisés. Il est utilisé par tout site web qui souhaite limiter l'utilisation par les robots.

Les CAPTCHA fonctionnent en fournissant des informations à un utilisateur qui doit les interpréter. Auparavant, ils produisaient des lettres et des chiffres déformés ou superposés que les utilisateurs devaient ensuite soumettre dans un champ de formulaire. La distorsion des lettres rendait la tâche difficile à ceux qui voulaient interpréter le texte. Elle empêchait l'accès jusqu'à ce que les caractères soient vérifiés.

Cette méthode repose sur la capacité d'un humain à généraliser et à reconnaître de nouveaux modèles sur la base d'une expérience passée variable. En revanche, les robots ne peuvent souvent que suivre des modèles fixes ou saisir des caractères aléatoires. En raison de cette limitation, il est peu probable que les robots devinent correctement la bonne combinaison.

Depuis l'introduction des CAPTCHA, des robots utilisant l'apprentissage automatique ont été développés. Ceux-ci parviennent mieux à identifier les CAPTCHA traditionnels à l'aide d'algorithmes formés à la reconnaissance des formes. En raison de cette évolution, les nouvelles méthodes CAPTCHA se fondent sur des tests plus complexes. Par exemple, le reCAPTCHA exige de cliquer dans une zone spécifique et d'attendre jusqu'à ce qu'une minuterie s'écoule.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.