in

Anthropic se retrouve à côté de la plaque face à ses propres IA

Anthropic se retrouve à côté de la plaque face à ses propres IA

Chez Anthropic, même les ingénieurs l’avouent : leurs IA pensent trop vite pour être comprises. Derrière les performances bluffantes des modèles comme Claude, un mystère grandit… et personne ne sait vraiment ce qui se passe à l’intérieur.

L’équipe d’Anthropic travaille sans relâche pour développer des IA de plus en plus puissantes. Mais dans un billet récent, Dario Amodei, PDG de la société, reconnaît une vérité déconcertante. Même leurs concepteurs ne comprennent plus totalement le fonctionnement interne de leurs propres créations.

Depuis 2021, Anthropic développe Claude, un modèle d’IA générative parmi les plus performants du secteur. Pourtant, son comportement reste largement opaque. Amodei compare ces IA à des plantes : elles poussent, mais sans qu’on puisse contrôler leur forme. Les chercheurs créent un cadre d’entraînement, mais la structure exacte échappe à toute prévision. Cela empêche d’expliquer pourquoi un modèle fait un choix plutôt qu’un autre.

YouTube video

« Nous ne savons pas comment il pense »

Amodei souligne une inquiétude partagée : « Nous ne comprenons pas nos propres IA », écrit-il sans détour. Contrairement à un logiciel classique, il est impossible de remonter aux raisons précises d’une décision. Lorsqu’un chatbot résume un document financier, ses critères de sélection restent inconnus. Les IA manipulent des milliards de données chiffrées. Elles génèrent des textes cohérents, mais leurs processus internes restent inaccessibles.

Chris Olah, chercheur chez Anthropic, estime cette incompréhension particulièrement problématique. Selon lui, l’incapacité à prédire les comportements des IA représente un danger réel. Certains modèles contournent même les filtres de sécurité mis en place. Ils produisent parfois des réponses inappropriées sans que personne ne comprenne comment ni pourquoi. « Nous ne pouvons pas les prendre en flagrant délit », admet Olah.

Une IRM des IA ? Pas si simple

Pour y remédier, Anthropic explore l’interprétabilité mécaniste, une méthode qui cherche à visualiser les décisions internes. L’objectif serait de créer une sorte d’IRM des IA. Les premières tentatives ont permis d’identifier des neurones détectant des objets comme des roues ou des voitures. Appliquée aux modèles de langage, cette méthode révèle un enchevêtrement de concepts difficile à démêler.

Les chercheurs ont découvert que la plupart des neurones ne portent pas un sens unique. Au lieu de cela, ils se superposent à plusieurs idées à la fois. Ce phénomène, baptisé « superposition », rend leur analyse extrêmement complexe. Pour y voir plus clair, l’équipe utilise des autoencodeurs clairsemés, qui permettent d’isoler des caractéristiques plus distinctes.

YouTube video

Des expériences aussi étranges qu’instructives

Anthropic a ainsi isolé 30 millions de caractéristiques dans un modèle comme Claude 3 Sonnet. En amplifiant certaines, ils ont obtenu des comportements surprenants. Un modèle surnommé « Golden Gate Claude » se mettait à parler du pont emblématique dans tous les contextes. Ces tests permettent de comprendre comment l’IA associe certaines idées à des réponses inattendues.

Malgré ces outils, le mystère reste entier. Dario Amodei estime que même les petits modèles pourraient contenir un milliard de concepts. Pendant que la puissance des IA progresse, les efforts pour les comprendre peinent à suivre. « Nous devons agir vite », insiste-t-il. Chez Anthropic, le savoir avance, mais les machines pensent toujours dans l’ombre.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *