Réaliser une extraction sélective de contenu comme un vrai internaute
Le grand défi que nous nous sommes lancé est d’arriver à extraire le seul contenu d’une page qui pourrait réellement intéresser un internaute venu pour une raison précise sur une page. Bien sûr, grâce à un logiciel.
Toute analyse sémantique prédictive repose en partie sur l’existant afin de pouvoir se projeter dans l’avenir… Certes, ce n’est qu’une partie de l’équation, mais une partie qui compte. Alors que faire de la pollution qui abonde autour du contenu hors du scope du sujet ?
Je ne parle pas seulement des menus, je parle aussi de la pub, de paragraphes entiers hors sujet pour faire du remplissage, de commentaires internautes dont certains sont sans valeur ajoutée (du style : « merci pour le billet »), d’autres ayant au contraire un réel intérêt car ils peuvent révéler des attentes.
Les codes open source divers style « readability » sont en pratique inutilisables, car même quand ils fonctionnent, ils ont comme objectif de vous permettre d’imprimer la page. Or, ce n’est pas ce que nous voulons.
Nous voulons uniquement garder ce qui est dans le sujet.
Ce problème de bruit et du hors-sujet existe énormément dans les boutiques, sites d’actus, etc. où ça part un peu dans tous les sens, même quand le template HTML est bien fait. Il ne faut pas croire que les blogs soient bien mieux lotis…
L’internaute vient sur une page avec une idée précise en tête, et seule la partie qui aborde son sujet va l’intéresser. Alors, passer à la vitesse supérieure est-il possible ?