Que pourrait être Q-Star ? Indices sur le projet secret d'OpenAI

Aussi brève soit-elle, la destitution de Sam Altman, co-fondateur et PDG d'OpenAI, a laissé place à de nombreuses spéculations. Cette décision du conseil d'administration serait liée à un projet secret du nom de Q* ou Q-Star concocté par le créateur de ChatGPT. Ce modèle d'intelligence artificielle possède un potentiel de résolution de problèmes mathématiques qui aurait ébranlé certains chercheurs. Selon eux, la puissance de cette IA constitue une menace pour les êtres humains.

Une formidable percée pour des modèles d'IA plus puissants

À ce jour, OpenAI a refusé d'émettre des commentaires sur son projet Q-Star. Ce qui donne lieu à des controverses et autres théories complotistes. De plus, des chercheurs de la start-up qui travaillent sur la sécurité du modèle de l'intelligence artificielle auraient fait part de leurs inquiétudes sur sa puissance qui représenterait un risque pour l'humanité. À cela s'ajoute un rythme de développement très rapide de cette technologie.

Néanmoins, le public peut aujourd'hui apprendre davantage sur le sujet. Q-Star possède la capacité de résoudre certains problèmes mathématiques, même ceux qu'il n'a pas encore rencontrés auparavant. Malgré le fait que les problèmes en question sont du niveau de l'école primaire, une telle prouesse est une avancée importante. Cela va permettre de mettre au point des modèles d'IA plus puissants.

Des résultats positifs avec la technique de supervision des processus

Sans véritablement citer le nom du projet, OpenAI a annoncé au mois de mai dernier avoir obtenu de nouveaux résultats satisfaisants dans le développement de modèles d'IA plus puissants. Il repose sur la technique appelée supervision des processus. Les travaux ont été effectués sous la supervision d'Ylia Sutskever. Scientifique en chef et co-fondateur de la start-up, il a participé à l'éviction de Sam Altman.

Concrètement, les chercheurs qui travaillent sur Q* ont cherché à réduire les erreurs logiques que les modèles d'IA dits LLM pour Large Langage Model commettent. La technique de supervision des processus consiste notamment à former le modèle d'IA à décomposer en plusieurs étapes le processus de résolution d'un problème. Les probabilités de trouver la bonne réponse sont alors plus élevées.

Une possible allusion au Q-learning avec des données synthétiques

Certains indices, dont le nom Q-Star, suggèrent aussi que le projet d'OpenAI fait appel au Q-learning. Il s'agit d'une forme d'apprentissage qui permet d'entraîner un algorithme et de lui apprendre à résoudre un problème en recourant à des commentaires négatifs ou positifs. Les chercheurs de la start-up ont déjà utilisé cette technique pour rendre ChatGPT beaucoup plus utile et développer des robots joueurs.

Cette technique d'apprentissage par renforcement utilise des données synthétiques plutôt que des données issues du monde réel. Plus précisément, ce sont des données générées en grandes quantités par ordinateur. Elles peuvent donc servir pour une formation à la résolution d'un problème particulier ou à l'exécution de tâches spécifiques. Cette approche peut aider les LLM à devenir plus performants et échapper au contrôle humain.

Il y a quelques semaines, OpenAI a annoncé avoir entamé le développement de la version destinée à succéder à GPT-4. Il est également possible que Q* soit un modèle conçu pour être utilisé conjointement avec GPT-5. Une telle fusion significativement accroître les compétences de l'IA à résoudre des problèmes complexes.