Google DeepMind a présenté DiffusionGemma, un modèle expérimental qui génère du texte en un seul bloc, et non token par token. Selon Google DeepMind, cette approche atteint une vitesse quatre fois supérieure à celle des modèles autorégressifs classiques, sur du matériel grand public.
La quasi-totalité des grands modèles de langage actuels produisent leur texte de gauche à droite, un mot après l’autre. Ce fonctionnement impose une limite de vitesse difficile à contourner. Ce nouveau modèle d’IA de Google DeepMind s’inspire des techniques de diffusion utilisées pour la génération d’images, et les applique au texte. L’utilisateur obtient un modèle disponible en open source sous licence Apache 2.0 et accessible via Hugging Face.
Comment DiffusionGemma génère-t-il du texte ?
DiffusionGemma ne prédit pas les mots un par un. Il commence par remplir une zone de texte avec des tokens aléatoires, appelés « bruit » Il affine petit à petit ces prédictions en plusieurs passages. Il produit au final un grand bloc de texte en une seule opération. Selon le billet de blog de Google DeepMind, le modèle peut traiter en même temps jusqu’à 256 tokens à chaque étape.
Ce fonctionnement modifie le goulot d’étranglement habituel de la génération de texte. DiffusionGemma utilise la puissance de calcul brute du GPU au lieu d’être limité par la bande passante mémoire. Ce déplacement technique rend la génération de texte quatre fois plus rapide que la méthode classique.
Des chiffres mesurés sur du matériel réel
Sur le plan technique, le modèle repose sur l’architecture Gemma 4, de type Mixture of Experts Il fonctionne avec 26 milliards de paramètres au total. Seuls 3,8 milliards sont cependant activés lors de l’inférence, indique Google DeepMind. L’outil fonctionne avec 18 Go de mémoire graphique grand public.
Meet DiffusionGemma!
— Google Gemma (@googlegemma) June 10, 2026
An experimental open model that explores a fast approach to text generation, released under an Apache 2.0 license.
Moving beyond sequential, token-by-token processes to generate entire blocks of text simultaneously. Here’s what’s new with DiffusionGemma: 👇 pic.twitter.com/iaVMPr0WKx
DiffusionGemma atteint une vitesse d’environ 700 tokens par seconde avec une carte graphique grand public RTX 5090. Il dépasse les 1 000 tokens par seconde sur l’accélérateur professionnel Nvidia H100, selon les publications de Google DeepMind. Un modèle Gemma autorégressif de taille équivalente atteint environ un quart de ces vitesses à titre de comparaison. Le modèle a été conçu en collaboration avec Nvidia. Il fonctionne entièrement en local, sans recours au cloud ni facturation à l’usage.
Quelles sont les limites concrètes de cette approche ?
Google admet lui-même que le modèle n’est pas prêt à remplacer les architectures classiques dans les grands centres de données. Deux obstacles se posent. D’abord, le taux d’erreur est plus élevé. Dans une image, un pixel incorrect passe inaperçu. Dans un texte, un seul token mal prédit peut rendre un paragraphe entier incompréhensible. Ensuite, pour des réponses courtes, le modèle mobilise des ressources plus importantes que pour un long texte. Cela le rend peu efficace dans ces cas précis.
Un outil adapté à des tâches complexes et non linéaires
DiffusionGemma présente des avantages concrets pour certains usages malgré ces limites. Elle est capable de traiter des larges blocs de texte en simultanée, indique Google DeepMind. Il est ainsi adapté à l’édition de code, au séquençage moléculaire, à la résolution de puzzles Sudoku. Il peut même aider à la création de graphiques mathématiques. Ces tâches nécessitent une vision globale du contenu, plutôt qu’une progression linéaire.
Par ailleurs, la réduction de la latence ouvre des perspectives pour les IA conversationnelles destinées aux développeurs qui travaillent en local. Ce modèle expérimental reste avant tout un outil de recherche. Il illustre cependant, une piste technique que plusieurs acteurs du secteur commencent à explorer sérieusement.
- Partager l'article :
