Détecter le spam par l’analyse du contenu
Dans une étude intitulée « Detecting Spam Web Pages through Content Analysis », Alexandros Toulas,chercheur au département de génie informatique de l’université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.
Parmi les indicateurs pouvant laisser penser qu’une page est du spam :
- L’usage d’extensions plus susceptibles de contenir du spam que d’autres (.biz et .us).
- L’utilisation de langues plus spammées que d’autres (le français, dans une moindre mesure l’anglais).
- Une longueur anormale de la balise
(plus d’une quinzaine de mots). - Une longueur moyenne des mots anormale (plus de 6 caractères).
- Un ratio ancres de liens / texte trop important.
- Une compressibilité de la page plus élevée que la moyenne (via l’algorithme Gzip).
- Un ratio balisage / contenu anormalement faible.
- Une fréquence anormalement faible des mots les plus fréquents du corpus.
- Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).
- Une présence anormale élevée de n-grammes soit trop fréquents, soit improbables.
Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C’est uniquement en cumulant les indicateurs et en mettant au point une heuristique qu’une détection fiable du spam devient possible.
Source et suite de l’article : http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu