Machine learning : extraction du contenu principal des pages web -

Grâce au machine learning, des chercheurs ont développé une méthode améliorée d’extraction du contenu principal d’une page web.

L’extraction du contenu principal des pages web est précieuse pour les nanavigateurs. Il en est de même pour les systèmes informatiques chargés d’ingérer et d’indexer ce contenu à différentes fins. Cette nouvelle méthode d’apprentissage automatique permet de le faire en se basant uniquement sur l’apparence visuelle de la page.

Une méthode améliorée d’extraction du contenu principal d’une page web

En Corée du Sud, trois chercheurs de l’université Hanyang et un autre de l’Institute of Convergence Technology ont publié un article. Celui-ci parle d’une nouvelle méthode d’extraction du contenu principal d’une page web qu’ils ont développée. Leur approche se base sur le machine learning pour faire disparaître les autres composants. Il s’agit notamment des barres latérales, des pieds de page, des en-têtes de navigation et des blocs publicitaires.

Certes, la plupart des navigateurs web et certains plugins proposent cette fonctionnalité. Généralement, ils reposent sur un formatage sémantique pour extraire le contenu réel de la page. Autrement dit, ces systèmes utilisent un balisage basé sur le code comme indice de pertinence du contenu. Cependant, les propriétaires de site peuvent contourner ses systèmes pour continuer d’afficher la totalité de leur page web.

La Grid-Center-Expand (GCE)

Les chercheurs sud-coréens ont choisi une nouvelle approche appelée Grid-Center-Expand (GCE). Cette technique utilise le machine learning pour l’extraction du contenu perincipal d’une page web. Elle correspond à une grille qui évalue la pertinence du contenu par rapport à l’objectif principal de la page. La GCE évalue ensuite la relation d’une cellule pertinente avec les cellules voisines afin d’extraire le contenu principal.

En d’autres termes, cette technique déduit le contenu réel en se basant uniquement sur l’apparence visuelle d’une page. Ce fait est d’ailleurs mentionné dans le titre de l’article « Don’t read, just look : Main content extraction from web pages using visually apparent features ».

D’après les chercheurs, les méthodes existantes ne sont pas toujours efficaces pour les pages non anglaises. Par conséquent, ils ont compilé des jeux de données à partir de mots-clés anglais à l’aide de Google Trends. En outre, ils ont également rassemblé des mots-clés français, sud-coréens, japonais, russes, indonésiens et arabes. Pour les mots-clés chinois, ils ont utilisé un ensemble de données Baidu.

Lors des tests, les chercheurs ont constaté un même niveau de performances que les modèles de réseaux de neurones profonds récents. Mais ce nouveau système d’extraction de contenu principal de page web offre l’avantage d’adaptation à une plus grande variété de langues.