Ponts, phares et arbres solitaires : quand l’IA générative s’enferme dans 12 clichés visuels

L’IA générative promet des images inédites. Pourtant, une nouvelle étude montre qu’en l’absence de supervision humaine, ces systèmes finissent par produire toujours les mêmes scènes, au point de frôler la standardisation visuelle.

Malgré des milliers d’images générées, des chercheurs ont observé que les IA visuelles reviennent inlassablement aux mêmes archétypes. Une découverte qualifiée de “sobering” pour la créativité computationnelle. La créativité fait partie des promesses les plus souvent associées à l’intelligence artificielle générative. Pourtant, une étude récente menée par des chercheurs suédois et américains invite à revoir cet enthousiasme.

Une expérience sans intervention humaine

Pour mesurer la créativité réelle de l’IA, des chercheurs ont conçu une expérience volontairement radicale et entièrement automatisée. Aucun humain, aucun ajustement, aucune consigne créative externe. Le protocole repose sur 2 systèmes d’intelligence artificielle distincts.

Le premier génère une image à partir d’un prompt initial. Le second décrit précisément cette image. Cette description est ensuite réinjectée dans le générateur visuel. Le cycle se répète ainsi pendant 100 itérations consécutives. L’expérience a été reproduite 40 fois, avec 4 générateurs d’images différents. Au total, plusieurs milliers de visuels ont été produits sans aucune intervention humaine.

L’étude émane du département d’analyse de données de l’université de Dalarna, en Suède, et du BEACON Center de l’université d’État du Michigan, aux États-Unis. Les chercheurs qualifient leur démarche de test autonome extrême. L’objectif est d’observer comment l’IA évolue lorsqu’elle crée seule, sans contrainte artistique humaine.

Douze motifs visuels qui reviennent systématiquement

Malgré cette abondance d’images, les résultats surprennent par leur homogénéité visuelle. Les chercheurs identifient précisément 12 motifs récurrents. Ponts solitaires, phares sous la tempête, arbres isolés, scènes urbaines nocturnes dominent les productions. S’y ajoutent des cathédrales gothiques, des intérieurs palatiaux et des scènes d’action génériques.

Chaque image diffère en apparence, mais converge vers ces archétypes. Les milliers de visuels générés se répartissent systématiquement dans ces 12 catégories. Les auteurs parlent d’une esthétique proche de la photographie de stock.

L’expression employée frappe : une véritable « musique d’ascenseur visuelle ». Autrement dit, des images agréables, techniquement maîtrisées, mais profondément interchangeables. Cette répétition traverse tous les modèles testés, sans exception notable. La diversité promise par l’IA générative se révèle donc largement illusoire.

Une créativité qui converge au lieu d’explorer

Selon les chercheurs, cette convergence révèle une limite structurelle des approches actuelles. L’IA privilégie systématiquement les résultats les plus probables. Elle favorise les chemins déjà balisés par ses données d’entraînement.

Au lieu d’explorer des possibilités nouvelles, elle se replie vers des attracteurs visuels dominants. Les auteurs parlent d’un effondrement créatif progressif. À chaque itération, la diversité diminue, jusqu’à atteindre des points quasi identiques. Cette dynamique remet en cause la notion même de créativité aglorithmique autonome.

Sans mécanismes anti-convergence ou supervision humaine, l’originalité s’érode rapidement. Les chercheurs qualifient ces conclusions de « sobering for computational creativity ». En clair, les systèmes actuels peinent à produire une nouveauté authentique sans guidage externe. La créativité artificielle apparaît donc plus fragile qu’annoncé.

Un risque réel d’uniformisation culturelle

Au-delà de la technique, l’étude soulève un enjeu culturel majeur. Les chercheurs alertent sur une possible homogénéisation visuelle à grande échelle. Une diffusion massive de ces systèmes pourrait standardiser l’imaginaire collectif.

Certes, la culture humaine répète aussi ses mythes et ses motifs. Les chercheurs le rappellent explicitement. La différence réside dans les attracteurs. L’humain converge vers des récits façonnés par l’expérience corporelle.

L’IA, elle, converge vers une esthétique issue des banques d’images et d’Internet. Cette distinction interroge profondément notre rapport à la création. Les auteurs posent une question finale, volontairement dérangeante. Que révèle cette convergence sur nos propres productions culturelles, utilisées pour entraîner ces modèles ?

Partager l'article :