in ,

AlphaGo Zero n’a plus besoin des humains pour apprendre à jouer

annonce aujourd’hui être parvenu à créer une version améliorée de son AlphaGo : AlphaGo Zero. Plus puissante et plus simple à la fois, cette nouvelle itération se distingue surtout par sa capacité à se lancer sans avoir besoin de la puissance de calcul des serveurs de Google ni de l’aide d’humains. 

Contrairement à l’ancienne version, AlphaGo Zero n’ pas les données historiques de parties de Go. Elle apprend directement en jouant contre elle-même, encore et encore, des milliers de fois. Une technique similaire à celle utilisée par l’OpenAI d’Elon Musk qui bat les champions du monde de Dota 2.

AlphaGo Zero a battu AlphaGo 100 à 0 après 72 heures d’entraînement

YouTube video

Après 36 heures d’entraînement, AlphaGo Zero est parvenu à battre la version d’AlphaGo qui a battu le champion du monde de jeu de Go Lee Sedol pour la première fois. Après 72 heures, elle a triomphé de cette ancienne version avec une victoire écrasante de 100 à 0. Une prouesse époustouflante, surtout lorsqu’on sait qu’il fallait plusieurs semaines à l’ancienne version pour s’entraîner.  De plus, alors que l’ancienne version était entraînée sur les serveurs de Google avec 48 puces d’intelligence artificielle, il suffit d’une seule machine avec 4 puces pour permettre à AlphaGo Zero de s’exercer.

Selon David Silver, directeur de l’équipe AlphaGo, en s’émancipant de l’expertise et des données humaines, AlphaGo Zero se débarrasse aussi des limites de la connaissance humaine. Cette nouvelle version est capable de créer son propre savoir. C’est de cette idée que l’IA tire son nom : zéro connaissance humaine.

AlphaGo Zero va permettre de résoudre des problèmes du monde réel

YouTube video

Selon le CEO de DeepMind, , cette évolution est cruciale pour l’applicabilité d’AlphaGo en dehors d’un laboratoire ou par delà un plateau de Go. Cet algorithme capable d’apprendre par lui-même peut être utilisé pour résoudre des problèmes du monde réel. Le chef d’entreprise précise que le but réel d’AlphaGo n’a jamais été de gagner au jeu de Go, mais de permettre le développement d’algorithmes à vocation plus généraliste.

Par exemple, l’algorithme d’AlphaGo Zero sera capable d’apprendre les interactions entre les protéines au sein du corps humain pour aider la recherche scientifique et le développement de nouveaux médicaments. Il sera aussi en mesure d’apprendre les lois de la physique pour aider à créer de nouveaux matériaux. Par exemple, Hassabis rêve d’un métal qui permettrait de conduire l’électricité plus efficacement que tous les métaux existants actuellement, un superconducteur.

L’autre point fort de AlphaGo Zero est sa simplicité. C’est cette simplicité qui le rend encore plus applicable à d’autres secteurs. En effet, les méthodes simples sont privilégiées dans le domaine de l’IA car moins d’efforts sont nécessaires pour apporter une même solution à d’autres problèmes. D’ailleurs, DeepMind ne compte même pas communiquer le code d’AlphaGo Zero car il estime que les chercheurs seront capables de répliquer l’algorithme à partir du papier publié dans le journal Nature. À n’en point douter, AlphaGo Zero représente un pas de géant pour l’intelligence artificielle.