Alors que l’industrie de l’IA générative s’approche d’un « mur de la donnée » sans précédent, une nouvelle économie de l’identité émerge. Faute de contenus qualitatifs disponibles sur le web ouvert, les laboratoires d’IA se tournent désormais vers le sourcing direct : l’achat de voix, d’images et de conversations privées auprès de milliers de particuliers. Cette tendance, si elle répond à un besoin technique immédiat, soulève des questions cruciales de gouvernance, d’éthique et de durabilité pour les entreprises du secteur. Mais surtout sur la protection de la vie privée des utilisateurs.
C’est d’ailleurs un basculement stratégique qui marque la fin de l’ère de « l’aspiration sauvage » des données web.
Et aujourd’hui, l’exclusivité et la nuance humaine deviennent les nouveaux actifs critiques pour maintenir la compétitivité des modèles comme ChatGPT ou Gemini.
Les données du web ne suffisent plus por entraîner les LLM
Le constat des chercheurs est que les stocks de textes récents et de haute qualité pour entraîner les LLM arrivent à épuisement cette année.
Plusieurs facteurs expliquent cette pénurie structurelle. La raréfaction de la donnée humaine. C’est-à-dire que le web est de plus en plus pollué par des contenus générés par IA, créant un risque de « dégénérescence » des modèles s’ils s’auto-alimentent.
Mais aussi la complexité juridique. Les droits d’auteur et les réglementations (RGPD et IA Act entre autres) rendent l’exploitation des données publiques de plus en plus risquée et coûteuse.
Sans oublier le besoin de nuances. Pour atteindre une intelligence plus fine, les entreprises ont besoin de micro-expressions, de dialectes spécifiques et de contextes privés que seul le sourcing direct peut offrir.
How gig apps like Kled AI, Silencio, Neon Mobile, and Luel AI pay users for data that AI companies can use to train models, from phone calls to videos of places (Shubham Agarwal / The Guardian)https://t.co/Hg0xkqKuTehttps://t.co/Fln2IJ5A34
— Techmeme (@Techmeme) March 22, 2026
Les plateformes de sourcing d’identité émergent
De nouveaux intermédiaires structurent ce marché, transformant des gestes quotidiens en unités de valeur pour les data-scientists.
Des plateformes comme Neon Mobile ou Luel AI (soutenue par Y Combinator) permettent de monétiser l’intimité à des tarifs très compétitifs pour les Big Tech.
Comparatif des coûts de sourcing direct (Estimations 2026) :
| Plateforme | Type de donnée collectée | Rémunération utilisateur | Usage visé |
| Neon Mobile | Conversations téléphoniques privées | 0,50 $ / minute | IA conversationnelle fluide |
| Luel AI | Dialogues multilingues | 0,15 $ / minute | Traduction et nuances locales |
| Plateformes Vidéo | Micro-expressions et gestes | Quelques dollars / heure | Avatars numériques et Robotique |
Risques de gouvernance et impasse structurelle
Si ce modèle offre une solution court-termiste à la pénurie de données, il pose des risques majeurs pour la réputation des entreprises et la pérennité du travail numérique.
« Structurellement, ce travail est précaire, non progressif et constitue en réalité une impasse », prévient Mark Graham, professeur à l’Université d’Oxford.
Pour les entreprises B2B, l’utilisation de ces données présente trois zones de friction. Notamment L’irrévocabilté des licences, la sécurité des Deepfakes et la responsabilité sociale.
Les contributeurs signent souvent des accords sans redevance. Mais l’évolution des cadres légaux sur la « propriété de soi » pourrait entraîner des litiges massifs dans le futur.
L’usage détourné de ces identités (usurpation, reconnaissance faciale non consentie) peut se retourner contre les entreprises qui ont financé la collecte initiale.
La « course au moins-disant salarial » dans les pays en développement pour alimenter des modèles valant des milliards de dollars devient un point de vigilance pour les investisseurs ESG.
- Partager l'article :
