in ,

TPO, la copie du modèle Strawberry d’OpenAI explose les benchmarks

TPO, la méthode qui permet à l'IA de Meta de réfléchir comme le fait Strawberry d'OpenAI

Comme le modèle o1, alias Strawberry, d’, a également développé une approche qui permettrait à son IA de prendre le temps de réfléchir avant de donner une réponse à une requête. TPO ou Thought Preference Optimization, c’est le nom que Meta a attribué à cette nouvelle approche de formation de son modèle d’IA.

D’habitude, quand on saisit une invite sur un chatbot comme ChatGPT, Claude, Gemini ou Copilot, les réponses viennent en quelques secondes.

Si vous regardez de près, leur interface affiche souvent un message indiquant que le modèle peut fournir de fausses réponses et suggère une vérification.

Mais ce n’est pas le cas sur Perplexity. Celui-ci est un moteur de recherche alimenté par IA qui fournit, en plus des réponses, des sources d’information pour plus de fiabilité dans ses réponses.

YouTube video

Pas de chaîne de pensée avec la méthode TPO de MEta

Si les modèles que nous connaissons utilisent les méthodes d’apprentissage comme la chaîne de pensée, Meta a adopté une autre approche dans la formation de son système.

Cela dit, avec les modèles comme -4o, mis à jour récemment, l’ doit exposer son processus de raisonnement de manière successive.

Avec le TPO de Meta, le processus reste masqué et le modèle va traiter toutes les données et les informations dont il dispose en une seule fois.

J’ai également constaté que les chercheurs de Meta partent d’un modèle de base obéissant aux instructions. Cela afin que l’on puisse pousser le modèle à développer une véritable réflexion interne avant de formuler une réponse.

Vu d’un autre angle, c’est que Meta a adopté la méthode d’apprentissage par renforcement itératif pour que son modèle continue de se peaufiner progressivement au fur et à mesure qu’on lui pose des questions.

Voici en effet une image représentative qui illustre avec perfection le fonctionnement du TPO de Meta.

Pas besoin d’un grand volume de données pour l’entraînement

Oui, tous les modèles que nous connaissons actuellement ont été formés sur un très grand volume de données.

Sauf que certains modèles se limitent aux données qui datent du mois d’octobre 2023. Ce qui fait que certains d’entre eux ne pourraient pas fournir des réponses à jour.

Pour le cas de TPO, Meta a juste modifié une structure déjà existante pour que la technique puisse faire son effet sans avoir besoin d’une grande quantité de données.

Par ailleurs, l’ensemble du processus ne nécessite pas une intervention humaine puisque le système va simuler un processus de réflexion par lui-même.

YouTube video

Ce que le TPO vaut sur les Benchmarks

Bien sûr, comme tout nouveau modèle d’IA venant de débarquer sur le marché, il est nécessaire de passer par les tests Benchmarks.

Dans AlpacaEval, TPO atteint un taux de 52,5 % et dépasse largement le modèle de base Llama-3-8B-Instruct, qui ne fait que 24,9 %.

Il surpasse également la méthode « Thought Prompt » qui n’a obtenu qu’un score de 17,3 %.

Les modèles plus grands, comme GPT-4, avec 30,2 %, et Llama-3-70b-Instruct qui atteint 34,4 %, se situent dans le top 5, mais leur score restent tout de même inférieurs à celui de TPO. 

Bien évidemment, ce ne sont que des chiffres. Personnellement, j’attends le déploiement du TPO pour vraiment de quoi il est capable.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *