Machine learning : extraction du contenu principal des pages web -

Le machine learning améliore l’extraction du contenu principal des pages web

Par Vonintsoa R. Publié le 4 novembre 2021 | 2 minutes de lecture

Grâce au machine learning, des chercheurs ont développé une méthode améliorée d’extraction du contenu principal d’une page web.

L’extraction du contenu principal des pages web est précieuse pour les nanavigateurs. Il en est de même pour les systèmes informatiques chargés d’ingérer et d’indexer ce contenu à différentes fins. Cette nouvelle méthode d’apprentissage automatique permet de le faire en se basant uniquement sur l’apparence visuelle de la page.

Une méthode améliorée d’extraction du contenu principal d’une page web

En Corée du Sud, trois chercheurs de l’université Hanyang et un autre de l’Institute of Convergence Technology ont publié un article. Celui-ci parle d’une nouvelle méthode d’extraction du contenu principal d’une page web qu’ils ont développée. Leur approche se base sur le machine learning pour faire disparaître les autres composants. Il s’agit notamment des barres latérales, des pieds de page, des en-têtes de navigation et des blocs publicitaires.

Certes, la plupart des navigateurs web et certains plugins proposent cette fonctionnalité. Généralement, ils reposent sur un formatage sémantique pour extraire le contenu réel de la page. Autrement dit, ces systèmes utilisent un balisage basé sur le code comme indice de pertinence du contenu. Cependant, les propriétaires de site peuvent contourner ses systèmes pour continuer d’afficher la totalité de leur page web.

La Grid-Center-Expand (GCE)

Les chercheurs sud-coréens ont choisi une nouvelle approche appelée Grid-Center-Expand (GCE). Cette technique utilise le machine learning pour l’extraction du contenu perincipal d’une page web. Elle correspond à une grille qui évalue la pertinence du contenu par rapport à l’objectif principal de la page. La GCE évalue ensuite la relation d’une cellule pertinente avec les cellules voisines afin d’extraire le contenu principal.

En d’autres termes, cette technique déduit le contenu réel en se basant uniquement sur l’apparence visuelle d’une page. Ce fait est d’ailleurs mentionné dans le titre de l’article « Don’t read, just look : Main content extraction from web pages using visually apparent features ».

D’après les chercheurs, les méthodes existantes ne sont pas toujours efficaces pour les pages non anglaises. Par conséquent, ils ont compilé des jeux de données à partir de mots-clés anglais à l’aide de Google Trends. En outre, ils ont également rassemblé des mots-clés français, sud-coréens, japonais, russes, indonésiens et arabes. Pour les mots-clés chinois, ils ont utilisé un ensemble de données Baidu.

Lors des tests, les chercheurs ont constaté un même niveau de performances que les modèles de réseaux de neurones profonds récents. Mais ce nouveau système d’extraction de contenu principal de page web offre l’avantage d’adaptation à une plus grande variété de langues.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

▶ Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités

Partager l'article :

Facebook
Twitter
LinkedIn

Plus sur: Machine Learning

Trouvez quel LLM vous pouvez faire tourner sur votre PC avec llmfit

Les modèles de langage locaux deviennent la norme pour la confidentialité et le développement. Mais […] Plus
RIP Stack Overflow, Mozilla lance « cq » pour une mémoire collective des agents IA

Alors que le célèbre forum Stack Overflow s’éteint en silence, délaissé par les humains au […] Plus
Quelle bibliothèque Python utiliser pour l’IA et le machine learning ?

Une bibliothèque Python fournit des outils permettant de développer un programme informatique comme l’IA et […] Plus
TensorFlow : tout savoir sur ce framework du machine learning en 9 mn

Aujourd’hui, l’apprentissage automatique connaît un essor considérable. Parmi les outils incontournables, TensorFlow s’impose comme une référence dès que l’on […] Plus