Article

15 février 2008
Sources diverses

Détecter le spam par l’analyse du contenu

Dans une étude intitulée « Detecting Spam Web Pages through Content Analysis », Alexandros Toulas,chercheur au département de génie informatique de l’université de Los Angeles, Marc Najork, Mark Manasse et Dennis fetterly, chercheurs au sein du laboratoire de recherche Microsoft, proposent plusieurs indicateurs qui, combinés, permettent de détecter les pages constitutives de spam avec une efficacité de plus de 86%.

Parmi les indicateurs pouvant laisser penser qu’une page est du spam :

  • L’usage d’extensions plus susceptibles de contenir du spam que d’autres (.biz et .us).
  • L’utilisation de langues plus spammées que d’autres (le français, dans une moindre mesure l’anglais).
  • Une longueur anormale de la balise (plus d’une quinzaine de mots).</li> <li>Une longueur moyenne des mots anormale (plus de 6 caractères).</li> <li>Un ratio ancres de liens / texte trop important.</li> <li>Une compressibilité de la page plus élevée que la moyenne (via l’algorithme Gzip).</li> <li>Un ratio balisage / contenu anormalement faible.</li> <li>Une fréquence anormalement faible des mots les plus fréquents du corpus.</li> <li>Une fraction anormalement élevée des mots les plus fréquents du corpus (plus de 65%).</li> <li>Une présence anormale élevée de <a href="http://fr.wikipedia.org/wiki/N-gramme">n-grammes</a> soit trop fréquents, soit improbables.</li> </ul> <p>Il est important de noter que quasiment aucun de ces indicateurs ne peut servir isolément à caractériser le spam. C’est uniquement en cumulant les indicateurs et en mettant au point une <a href="http://fr.wikipedia.org/wiki/Heuristique">heuristique</a> qu’une détection fiable du spam devient possible.</p> <p><font style="font-size:11px;">Source et suite de l’article : </font><a target="_blank" href="http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu"><font style="font-size:11px;">http://s.billard.free.fr/referencement/?2008/02/15/458-detecter-le-spam-par-lanalyse-du-contenu</font></a></p> <footer> </footer> </article> <div class="navigation"> <div class="prev"><a href="https://www.secrets2moteurs.com/article6089/" rel="prev"><span class="icon"></span>Article précédent</a></div> <div class="next"><a href="https://www.secrets2moteurs.com/article6097/" rel="next">Article suivant<span class="icon"></span></a></div> </div> <!-- related content ---> </section> <div class="my-4"> <div class="row wpb_row row-fluid"><div class="wpb_column vc_column_container col-lg-12"><div class="vc_column-inner"><a href="https://www.1ere-position.fr/livre-blanc/etre-1ere-page-google/" style="display:block;" target="_blank" class="text-center"></a></div></div></div> </div> </div> <div class="col-lg-4 pt-4"> <div class="row wpb_row row-fluid"><div class="wpb_column vc_column_container col-lg-12"><div class="vc_column-inner"><div class="row wpb_row vc_inner row-fluid"><div class="wpb_column vc_column_container col-lg-12"><div class="vc_column-inner"><div class="wpb_wrapper"></div></div></div></div></div></div></div><div id="sidebar_article" class="row wpb_row row-fluid"><div class="wpb_column vc_column_container col-lg-12"><div class="vc_column-inner"><div class="wrapper titre-actu mb-3"> <div class="image-single-wrapper text-center"><img width="48" height="48" src="https://www.secrets2moteurs.com/wp-content/uploads/2020/12/titre-search.svg" class="attachment-full size-full" alt="" decoding="async" loading="lazy" /></div><div class="text-bloc"><h2 class="titre_2">Trouver un article</h2> </div></div><div class="vc_wp_search wpb_content_element"><div class="widget widget_search"><form role="search" method="get" class="search-form" action="https://www.secrets2moteurs.com/"> <label> <span class="screen-reader-text">Rechercher :</span> <input type="search" class="search-field" placeholder="Rechercher…" value="" name="s" /> </label> <input type="submit" class="search-submit" value="Rechercher" /> </form></div></div></div></div></div> <section id="last-articles"><h2 class="titre_2">Les 10 derniers articles</h2><div class="list"><a href="https://www.secrets2moteurs.com/nick-fox-remplace-prabhakar-raghavan-a-la-tete-de-la-recherche-et-de-la-publicite-de-google/">Nick Fox remplace Prabhakar Raghavan à la tête de la recherche et de la publicité de Google</a><a href="https://www.secrets2moteurs.com/mise-a-jour-bing-webmaster-tools-copilot-recommandations-et-16-mois-de-donnees/">Mise à jour Bing Webmaster Tools : Copilot, Recommandations et 16 mois de données</a><a href="https://www.secrets2moteurs.com/google-shopping-entierement-nouveau-et-base-sur-lia/">Google Shopping : entièrement nouveau et basé sur l’IA</a><a href="https://www.secrets2moteurs.com/google-ads-a-partir-du-13-novembre-les-donnees-de-plus-de-11-ans-seront-supprimees/">Google Ads : à partir du 13 novembre, les données de plus de 11 ans seront supprimées</a><a href="https://www.secrets2moteurs.com/comment-determiner-le-tarif-de-sa-prestation-seo/">Comment déterminer le tarif de sa prestation SEO ?</a><a href="https://www.secrets2moteurs.com/semrush-rachete-search-engine-land-la-fin-de-lindependance-editoriale/">Semrush rachète Search Engine Land : la fin de l’indépendance éditoriale ?</a><a href="https://www.secrets2moteurs.com/nouveau-google-shopping-personnalisation-ia-et-essayage-virtuel/">Nouveau Google Shopping : personnalisation IA et essayage virtuel !</a><a href="https://www.secrets2moteurs.com/les-rapports-dans-bing-webmaster-tools-que-vous-ne-trouverez-pas-dans-la-google-search-console/">Les rapports dans Bing Webmaster Tools que vous ne trouverez pas dans la Google Search Console</a><a href="https://www.secrets2moteurs.com/goossips-seo-fichier-robots-txt/">Goossips SEO : fichier robots.txt</a><a href="https://www.secrets2moteurs.com/wordpress-pirate-le-plugin-acf-telechargez-la-vraie-version/">WordPress pirate le plugin ACF : téléchargez la vraie version !</a></div></section> </div> </div> </main> <footer id="colophon" class="site-footer"> <button id="back-to-top"></button> <div class="container"> <div id="footer-newsletter" class="row wpb_row row-fluid"><div class="wpb_column vc_column_container col-lg-12"><div class="vc_column-inner"><div class="templatera_shortcode"><section data-vc-full-width="true" data-vc-full-width-init="false" class="vc_section bg-bleu"><div data-vc-full-width="true" data-vc-full-width-init="false" class="row wpb_row row-fluid"><div class="pt-5 py-md-5 wpb_column vc_column_container col-lg-6"><div class="vc_column-inner"><div class="text-bloc"><h4 class="titre_2"><span class="couleur_blanc"><span class="fw_700">Newsletter</span> S2M</span></h4> </div><div class="wrapper d-flex align-items-top"> <div class="image-single-wrapper mr-3 icon-newsletter text-left"><img width="52" height="52" src="https://www.secrets2moteurs.com/wp-content/uploads/2021/01/icon-newsletter.svg" class="attachment-full size-full" alt="" decoding="async" loading="lazy" /></div><div class="text-bloc"><p><span class="couleur_blanc">Reçois chaque semaine par e-mail le TOP 15 des meilleurs actualités élues par les utilisateurs de secrets2moteurs.com !</span></p> </div></div><div class="text-bloc input-newsletter"><!-- HTML Forms v1.3.26 - https://wordpress.org/plugins/html-forms/ --><form method="post" class="hf-form hf-form-52854" data-id="52854" data-title="Newsletter" data-slug="newsletter" data-message-success="Merci pour votre inscription ! Vous aller recevoir un email de confirmation à valider dans votre boite mail pour finaliser l'inscription et recevoir la newsletter(pensez à regarder dans vos spams également)" data-message-invalid-email="Désolé votre email semble invalide." data-message-required-field-missing="Des champs obligatoire semble manquants." data-message-error="Erreur !"><input type="hidden" name="_hf_form_id" value="52854" /><div style="display: none;"><input type="text" name="_hf_h52854" value="" /></div><div class="hf-fields-wrap"><div class="form-wrapper"> <input type="email" name="EMAIL" placeholder="Votre adresse email" required /> </div> <input type="submit" value="S'inscrire" /> <noscript>Please enable JavaScript for this form to work.</noscript></div></form><!-- / HTML Forms --> </div></div></div><div class="pb-5 pl-md-5 wpb_column vc_column_container col-lg-6"><div class="vc_column-inner"></div></div></div><div class="vc_row-full-width vc_clearfix"></div></section><div class="vc_row-full-width vc_clearfix"></div></div></div></div></div><div class="row wpb_row row-fluid mb-3"><div class="wpb_column vc_column_container col-lg-3"><div class="vc_column-inner"><div class="image-single-wrapper text-left"><img width="227" height="64" src="https://www.secrets2moteurs.com/wp-content/uploads/2020/12/logo-footer.svg" class="attachment-full size-full" alt="" decoding="async" loading="lazy" /></div></div></div><div class="wpb_column vc_column_container col-lg-9"><div class="vc_column-inner"><div class="row wpb_row vc_inner row-fluid"><div class="lien-footer wpb_column vc_column_container col-lg-4"><div class="vc_column-inner"><div class="wpb_wrapper"><div class="text-bloc"><p><span class="couleur_blanc"><strong>Plan de site</strong></span></p> <ul> <li><a href="https://www.secrets2moteurs.com/">Fil d'actualité</a></li> <li><a href="https://www.secrets2moteurs.com/contact/" title="Contactez-nous">Contactez-nous</a></li> </ul> </div></div></div></div><div class="lien-footer wpb_column vc_column_container col-lg-4"><div class="vc_column-inner"><div class="wpb_wrapper"></div></div></div><div class="lien-footer wpb_column vc_column_container col-lg-4"><div class="vc_column-inner"><div class="wpb_wrapper"></div></div></div></div></div></div></div><div class="row wpb_row row-fluid"><div class="wpb_column vc_column_container col-lg-3"><div class="vc_column-inner"><div class="image-single-wrapper text-center"><img width="1920" height="416" src="https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2.png" class="attachment-full size-full" alt="" decoding="async" loading="lazy" srcset="https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2.png 1920w, https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2-300x65.png 300w, https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2-1024x222.png 1024w, https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2-768x166.png 768w, https://www.secrets2moteurs.com/wp-content/uploads/2020/12/NOIISE-blanc-2-1536x333.png 1536w" sizes="(max-width: 1920px) 100vw, 1920px" /></div></div></div><div class="wpb_column vc_column_container col-lg-9"><div class="vc_column-inner"><div class="text-bloc"><p><span class="couleur_blanc fz_12px fw_200">Copyright 2000-2021 - S2M : service et outil de veille et curation d'actualités sur le référencement naturel et le webmarketing, maintenu par l'agence Noiise.Tous les logos et marques cités sont des propriétés respectives. Les articles, images et commentaires sont la propriété respective de leurs auteurs et n'engagent pas S2M.</span></p> </div><div class="text-bloc"><p><script id="mcjs">!function(c,h,i,m,p){m=c.createElement(h),p=c.getElementsByTagName(h)[0],m.async=1,m.src=i,p.parentNode.insertBefore(m,p)}(document,"script","https://chimpstatic.com/mcjs-connected/js/users/c18c91e9a73a164bed09f1b5d/4b4137d7f2802762c07218451.js");</script></p> </div></div></div></div> </div> </footer><!-- #colophon --> </div><!-- #page --> <!-- Mailchimp Top Bar v1.6.0 - https://wordpress.org/plugins/mailchimp-top-bar/ --> <div id="mailchimp-top-bar" class="mctb mctb-position-bottom mctb-medium"> <div class="mctb-bar" > <form method="post" > <label class="mctb-label" for="mailchimp-top-bar__email">Reçois toutes les semaines le classement de 15 meilleures actus</label> <input type="email" name="email" placeholder="mon adresse e-mail" class="mctb-email" required id="mailchimp-top-bar__email"/> <input type="text" name="email_confirm" placeholder="Confirm your email" value="" autocomplete="off" tabindex="-1" class="mctb-email-confirm"/> <input type="submit" value="S'inscrire" class="mctb-button"/> <input type="hidden" name="_mctb" value="1"/> <input type="hidden" name="_mctb_no_js" value="1"/> <input type="hidden" name="_mctb_timestamp" value="1729241164"/> </form> </div> </div> <!-- / Mailchimp Top Bar --> <!-- WPServeur Tracker ne pas enlever --> <noscript><img src="https://tracker.wpserveur.net/matomo.php?idsite=2412&rec=1" style="border:0;display: none;" alt="" /></noscript> <script type="text/javascript"> var _paq = window._paq || []; _paq.push([function() { var self = this; function getOriginalVisitorCookieTimeout() { var now = new Date(), nowTs = Math.round(now.getTime() / 1000), visitorInfo = self.getVisitorInfo(); var createTs = parseInt(visitorInfo[2]); var cookieTimeout = 2592000; // 1 mois en secondes var originalTimeout = createTs + cookieTimeout - nowTs; return originalTimeout; } this.setVisitorCookieTimeout( getOriginalVisitorCookieTimeout() ); }]); _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u="https://tracker.wpserveur.net/"; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2412']); _paq.push(['setSecureCookie', true]); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.type='text/javascript'; g.async=true; g.defer=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })(); </script> <!-- WPServeur Tracker ne pas enlever --> <!-- GTM Container placement set to footer --> <!-- Google Tag Manager (noscript) --> <noscript><iframe src="https://www.googletagmanager.com/ns.html?id=GTM-N8Z37BM" height="0" width="0" style="display:none;visibility:hidden" aria-hidden="true"></iframe></noscript> <!-- End Google Tag Manager (noscript) --><script type="text/html" id="wpb-modifications"></script><link rel='stylesheet' id='templatera_inline-css' href='https://www.secrets2moteurs.com/wp-content/plugins/templatera/assets/css/front_style.css' media='all' /> <script src='https://www.secrets2moteurs.com/wp-content/plugins/duracelltomi-google-tag-manager/js/gtm4wp-contact-form-7-tracker.js' id='gtm4wp-contact-form-7-tracker-js'></script> <script src='https://www.secrets2moteurs.com/wp-content/plugins/duracelltomi-google-tag-manager/js/gtm4wp-form-move-tracker.js' id='gtm4wp-form-move-tracker-js'></script> <script src='https://www.secrets2moteurs.com/wp-content/themes/primary/assets/js/theme.js' id='primary-js-js'></script> <script id='mailchimp-top-bar-js-extra'> var mctb = {"cookieLength":"365","icons":{"hide":"▼","show":"▲"},"position":"bottom","state":{"submitted":false,"success":false}}; </script> <script defer src='https://www.secrets2moteurs.com/wp-content/plugins/mailchimp-top-bar/assets/script.js' id='mailchimp-top-bar-js'></script> <script id='html-forms-js-extra'> var hf_js_vars = {"ajax_url":"https:\/\/www.secrets2moteurs.com\/wp-admin\/admin-ajax.php?action=hf_form_submit"}; </script> <script src='https://www.secrets2moteurs.com/wp-content/plugins/html-forms/assets/js/public.js' id='html-forms-js'></script> </body> </html>