Datamining et spams

Page 1

Le traitement des spams Shariffa MADAVJEE Jimmy YONG FONG Master 2 STIC 2007


Sommaire  Le spam, une nouvelle pollution planétaire  Les techniques traditionnelles de filtrage du spam  Positionnement du filtre  Liste blanches/noires  Analyse par mots clés  Analyse lexicographique  Flitre bayésien  Contrôle d’en-tête  Test de Turing  Les spammeurs contre-attaquent ?

2


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Le spam, kesako ?

 Origine ?  À l’origine d’un spam, un spammeur  Comment font-ils ?  Des sommes en jeu pour les entreprises  Historique

3


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Le spam, kesako ? 12 10 8 6 4 2 0 2001

2002

2003

2004

2005

Internationnal Amérique du nord

Évolution de la quantité quotidienne de spam en Amérique du nord et dans le monde entier 4


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

La dé-spam-misation ?  Le positionnement du filtre : 2 types d’approche

5


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

La dé-spam-misation ?  Architecture d’un système de messagerie

@

@

Internet Courrier entrant

Internet Courrier sortant

Courrier entrant

Courrier sortant

(destinataires et expéditeurs de mails)

Serv eur de messagerie (chez le fournisseur d’accès)

Serv eur antispam FILTRAGE

MTA Serv eur de messagerie

Poste utilisateur

Serv eur de filtrage antispam et antiv irus en ligne (chez le fournisseur du service de filtrage)

Poste utilisateur MUA

6


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

La dé-spam-misation ?  Procédés de filtrage traditionnels

 Liste noire/blanche HAM

 Analyse par mots clés

Bases de données de probabilités de mots

 Analyse lexicographique SPAM

 Contrôle de l’entête  Filtre bayésien

Création d'une base de données de mots pour le filtre bayésien

 Ca fonctionne comment ?  Mise à jour ?  Limites?

7


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

La dé-spam-misation ?  Approches complémentaires aux filtres traditionnels

 Méthodes heuristiques  Mots et symboles les plus souvent utilisés dans le sujet : Fwd, Free, Get, FREE, $, !, SPAM, You, Your, Norton, Credit, Save, 000, Now, Check, Year, Make, Sale, Money, DVD, just, now, Lose, software, Earn

 Phrases les plus souvent utilisées dans le corps de texte : opt-in, now!, offers, most, partners, 999, fulfillment, yamato, naviant, partner, removal, recurring, mailings, free!, assistant, enjoy, grocers, mailing, subscriber, cash, sun, rewarding, buy, today!, marketing

8


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

La dé-spam-misation ?  Approches complémentaires aux filtres traditionnels

 L’anti spoofing  Test de turing

9


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Les spammeurs contre-attaquent ?  Approches complémentaires aux filtres traditionnels

 L’anti antispam  Inversement des lettres  La phrase suivante serait immédiatement interceptée par un filtre heuristique ou bayésien : “FOR SUPER VIAGRA TOUCH HERE”  Mais celle-ci, astucieuse et loin d’être incompréhensible, aura beaucoup moins de chances de l’être : “FOR SUEPR VAIRGA TOCUH HERE”

 Mutations des mots  VIAGRA / V1AGRA / v*i*a*g*r*a  MORTAGE / M0RTAGE ) 10


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Les spammeurs contre-attaquent ?  Approches complémentaires aux filtres traditionnels

 L’anti antispam  « Encre invisible » « M o r t g a g e » peut correspondre, dans le code source à : « Mxo1ryttgvaqg8e »

 Leurres pour dictionnaires anti-bayésien Message marketing contenu dans une image

Leurre pour dictionnaires antiBayésiens / anti-heuristiques

11


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Conclusion

 Necessité d’un antispam  Caractéristiques d’un bon antispam  Les techniques d’anti-spam se basent sur les méthodes de text-mining, et de data-mining  Evolution des procédés (spam & antispam)  Le spam web s’étend aux mobiles

12


Le spam, kesako ? La dé-spam-misation? Les spammeurs contre-attaquent ?

Sources

 http://www.secuser.com/dossiers/methodes_antispam.htm  Le Spam : présentation, fonctionnement, principaux moyens de lutte : http://www.lefaso.net/article.php3?id_article=12897  Les filtres spam, Jean Fréor. Examen probatoire en informatique du CNAM 2005

13


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.