Computer vision : entraîner des modèles sur du bruit procédural -

Des chercheurs entraînent des modèles de computer vision sur du bruit procédural aléatoire et les résultats semblent efficaces.

Bien que les scores de précisions n’atteignent pas le niveau des modèles entraînés sur des images réelles, elles entrent toutes dans les limites acceptables. Pour les recherches en vision par ordinateur, cela pourrait signifier qu’il est possible d’utiliser des données moins coûteuses.

Entraîner des modèles de computer vision sur du bruit procédural

Cette expérience inédite a été effectuée par les chercheurs du MIT-CSAIL. Ils ont effectivement utilisé des images aléatoires et du bruit procédural comme données d’entraînement pour les modèles de computer vision. Alors que les données ne ressemblaient visuellement à rien, les scores de précisions se sont situé entre 20 et 50 %, ce qui est dans les limites supérieures et inférieures respectables.

Certes, cette précision ne signifie pas que les modèles peuvent reconnaître des objets précis comme un chien, un visage ou une maison. Autrement dit, les modèles en question ne correspondent pas aux techniques telles que l’image de synthèse et les GAN.

Néanmoins, les systèmes de vision par ordinateur entraînés sur ces données ont déduit des vérités applicables. Cela est étonnant du fait que les données en question sont très peu structurées.

Serait-il possible de se passer des données réelles ?

L’entraînement des systèmes d’IA repose généralement sur de grands ensembles de données. La vision par ordinateur, particulièrement, est plus gourmande en données. C’est dû au fait que les images doivent à la fois avoir une bonne résolution et être diversifiées.

Dans cette nouvelle approche, les chercheurs ont utilisé un mélange de contenus visuels très diversifiés. La recherche suggère que le processus du bruit procédural pourrait rendre les données d’images réelles inutiles pour la computer vision. En effet, selon les chercheurs, ces images aléatoires pourraient transmettre les connaissances attendues à moindre coût. Ils suggèrent également l’utilisation de données synthétiques générées au moment de la formation.

En fin de compte, selon eux, ce n’est pas la réalité des données qui importe, mais le fait qu’elles soient structurées de la même manière que les données réelles. Toutefois, pour atteindre le même niveau de précision que les modèles entraînés sur ImageNet, il faudra commencer par produire du bruit plus structuré.

Partager l'article :