La computer vision facilite l’analyse des documents PDF -

La computer vision peut transformer les documents PDF, presque inaccessibles, en sources d’information précieuses.

Les documents de type PDF sont connus pour être impossibles à modifier et souvent, il est difficile d’en extraire des informations utiles. Cependant, une nouvelle approche basée sur la computer vision permet d’analyser les textes dans ces montagnes de documents numériques.

Les PDF : documents non sociaux

La quantité de documents de types PDF (Portable Document Format) a été estimée à 2,5 milliards en 2015, représentant jusqu’à 11 % du contenu web.

Les PDF sont souvent opaques et dépourvus de métadonnées. Par conséquent, ils ne sont pas d’une grande utilité quand il s’agit de faire des recherches textuelles. Avec la montagne de données PDF existante, il n’y avait jusqu’ici aucun moyen de trouver un contexte, en dehors de l’URL de chaque document. Autrement dit, il est difficile d’extraire des informations utiles à partir des PDF, comme les connexions entre les fichiers. D’autre part, afin de les rendre compatibles aux différentes plateformes et à tous les systèmes, ils sont conçus pour être impossibles à modifier.

Maintenant, un nouveau projet consiste à utiliser la computer vision pour transformer les documents PDF en de véritables sources d’information. Ces données, dites non sociales, pourraient bientôt être exploitées par les chercheurs, les universitaires, les historiens et les journalistes.

La computer vision et le machine learning pour l’analyse des PDF

Dans le cadre de ce projet,des chercheurs américains ont sélectionné 1000 documents dans la Bibliothèque du Congrès des États-Unis. À l’aide de différents outils de machine learning, le but était de développer des méthodes d’extraction multimodales pour les textes et les images. Au lieu de se baser sur le texte pour analyser les PDF, la computer vision examine les documents sur le plan sémantique pour extraire les caractéristiques et les tendances.

Cette nouvelle approche devrait permettre de rendre les résultats des recherches textuelles plus significatifs. En d’autres termes, il sera plus facile d’explorer les documents sans connaissances préalables. Au lieu d’utiliser le mot-clé comme entrée, le système calcule les valeurs des mots les plus utilisés. En outre, pour l’analyse visuelle, un ensemble de méthodes de machine learning permet d’analyser des documents tramés.

Partager l'article :