UNIVERSITÉ DU QUÉBEC À MONTRÉAL APPROCHES D'APPRENTISSAGE AUTOMATIQUE POUR LA D

UNIVERSITÉ DU QUÉBEC À MONTRÉAL APPROCHES D'APPRENTISSAGE AUTOMATIQUE POUR LA DÉTECTION DU SPAM WEB : EXPLORATION DE DIVERSES CARACTÉRISTIQUES MÉMOIRE PRÉSENTÉ COJVIME EXIGENCE PARTIELLE DE LA MAÎTRISE EN INFORMATIQUE PAR FATIMA AIT MAHAMMED MARS 2018 UNIVERSITÉ DU QUÉBEC À MONTRÉAL Service des bibliothèques Avertissement La diffusion de ce mémoire se fait dans le respect des droits de son auteur, qui a signé le formulaire Autorisation de reproduire et de diffuser un travail de recherche de cycles supérieurs (SDU-522 - Rév.07-2011 ). Cette autorisation stipule que «conformément à l'article 11 du Règlement no 8 des études de cycles supérieurs, [l'auteur] concède à l'Université du Québec à Montréal une licence non exclusive d'utilisation et de publication de la totalité ou d'une partie importante de [son] travail de rechercne pour des fins pédagogiques et non commerciales. Plus précisément, [l'auteur] autorise l'Université du Québec à Montréal à reproduire, diffuser, prêter, distribuer ou vendre des copies de [son] travail de recherche à des fins non commerciales sur quelque support que ce soit, y compris l'Internet. Cette licence et cette autorisation n'entraînent pas une renonciation de [la] part [de l'auteur] à [ses] droits moraux ni à [ses] droits de propriété intellectuelle. Sauf entente contraire, [l'auteur] conserve la liberté d~ diffuser et de commercialiser ou non ce travail dont [il] possède un exemplaire.» · REMERCIEMENTS En premier lieu, je remercie Dieu de m'avoir permis de mener ce travail de recherche à terme. Ce travail n'aurait pu aboutir sans la contribution d'un nombre de personnes, ainsi se présente l'occasion de les remercier. Je tiens à remercier mon directeur de recherche, Monsieur Hakim Lounis, qui a supervisé mon travail tout en me laissant une grande marge de liberté. Je le remercie pour son encadrement, sa disponibilité et la pertinence de ses remarques tout au long de la réalisation de ce projet de maîtrise et aussi pour son soutien financier. Merci également à tous les professeurs de l'UQÀM avec qui j'ai suivi des cours tout au long de la maîtrise. Je remercie également la faculté des sciences de l'UQÀM pour les bourses d'excellence que j'ai reçues durant mes études de maîtrise. Merci à ma mère qui m'est la plus chère, pour sa patience, ses conseils qui ont éclairé mon chemin, et soutenu tout au long de ma vie. À toi maman, tu m'as toujours poussé vers le sérieux et le travail, et maintenant c'est grâce à toi et pour toi que j'arrive là. Ce mémoire n'aurait pas vu le jour sans la contribution de mon cher mari, Méziane, qui été toujours à côté de moi dans les moments délicats. Je ne saurai assez le remercier, pour son soutien moral et sa présence. C'est grâce à ton aide et à ta patience avec moi que ce travail a pu voir le jour. Je tiens à remercier ma famille, qui ont toujours trouvé les mots pour m'encourager. Ma plus profonde reconnaissance pour votre soutien. DÉDICACE À tous ceux qui se sentent fiers de ce travail TABLE DES MATIÈRES LISTE DES FIGURES ..................................... · ............................................................ xi LISTE DES TABLEAUX .......................................................................................... xiii RÉSUMÉ .................................................................................................................... xv INTRODUCTION ........................................................................................................ 1 0.1 Introduction générale ........................................................................................... 1 0 .2 Objectifs et contribution ...................................................................................... 3 CHAPITRE! DÉFINITION DU DOMAINE : DÉTECTION DU SPAM WEB ............................... 5 1.1 Introduction .......................................................................................................... 5 1.2 Qu'est-ce que le Spam Web? ............................................................................... 7 1.3 But des spammet1rs .............................................................................................. 7 1.4 Taxonomie des techniques de spam Web ............................................................ 8 1.5 La nécessité de la détection du spam Web ........................................................ 10 1.6 Taxonomie des techniques de détection du spam Web .................................... 11 1. 7 Apprentissage automatique ................................................................................ 14 1. 7 .1 Apprentissage supervisé ........................................................................... 14 1. 7 .2 Apprentissage non supervisé .................................................................... 16 1. 8 Conclusion ......................................................................................................... 17 CHAPITRE II DÉTECTION DU SPAM WEB AU MOYEN DE DIVERSES MÉTHODES D'APPRENTISSAGE AUTOMATIQUE: UN ÉTAT DE L'ART ........................... 19 2.1 Introdu.ction .............. ~ ......................................................................................... 19 Vlll 2.2 Métriques d'évaluation ...................................................................................... .20 2.2.1 Matrice de confusion ............................................................................... .21 2.2.2 Précision et Rappel ................................................................................... 23 2.2.3 La F-Mesl1re .............................................................................................. 23 2.2.4 La surface sous la courbe (AUC) .............................................................. 24 2.2.5 Taux de succès et taux d'erreur ............................................................... .25 2.3 Aperçu sur la détection de spam Web au moyen des méthodes d'apprentissage al1ton1atique ........................................................................................................ 25 2.4 Synthèse des travaux .......................................................................................... 32 2.5 Conclusion ......................................................................................................... 36 CP..APITRE III LE PROCESSUS DE PRÉPARATION DES DONNÉES ......................................... .37 3 .1 Introduction ........................................................................................................ 3 7 3.2 Description des données WebspamUK-2007 ................................................... .39 3.3 Organisation de la démarche de construction de WebspamUQAM-2017 ........ .41 3.4 La collecte des données (pages Web) ............................................................... .42 3.5 Décrypter le contenu de WebspamUK-2007 du format .WARC au format .TXT ............................................................................................................................ 44 3.6 Extraction de caractéristiques à partir du contenu ............................................ .49 3.6.1 Caractéristiques de titre .......................................................................... ..49 3.6.2 Caractéristiques de mots clés .................................................................... 51 3.6.3 Caractéristiques de l'entête ....................................................................... 56 3.6.4 Caractéristique du corps (body) ................................................................ 59 IX 3. 7 Base de données ................................................................................................. 63 3.8 Sélection ........................................................................ - .................................... 64 3.9 Classification ................................................................................................... _ .. 65 3 .10 Comparaison ...................................................................................................... 66 3 .11 Conclusion ......................................................................................................... 66 CHAPITRE IV ÉVALUATION DE L'ENSEMBLE DE DONNÉES PRÉPARÉES ......................... 67 4 .1 Introduction ........................................................................................................ 67 4.2 Présentation des ensembles d'apprentissage ..................................................... 67 4.2.1 Ensemble d'entraînement avec les caractéristiques existantes ................ 68 4.2.2 Ensemble d'entraînement avec les nouvelles caractéristiques ................. 68 4.3 Algorithmes d'apprentissage automatique utilisés ............................................ 68 4.3.1 J48 ············································································································ 69 4.3.2 _JRip ........................... ~ ................................................. - .............................. 70 4 .3 .3 Adaboost ................................................................................................... 70 4.3.4 Logitboost ............................................................................ _ ..................... 71 4.3.5 Random Forest ......................................................................................... 71 4.3.6 Réseau de neurones .................................................................................. 72 4.3.7 LMT ......................................................................................................... 73 4.3.8 Les tables de décision ............................................................................... 73 4.3.9 SVM ......................................................................................................... 74 4.3.10 KNN ..................................................................................................... 74 X 4.4 Application de plusieurs approches d'apprentissage automatique sur 2 classes de d.onnées .......................................................................................................... 7 5 4.5 Application de plusieurs approches d'apprentissages sur 3 classes de donnée 85 4.6 Combinaison d'attributs ..................................................................................... 87 4.7 Comparaison avec les approches existantes ....................................................... 89 4.8 Conclusion ......................................................................................................... 93 CHAPITRE V CONCLUSION GÉNÉRALE ..................................................................................... 95 5.1 Survol de la recherche ........................................................................................ 95 5 .2 Contribution de la recherche .............................................................................. 97 5.3 Limites de la recherche ...................................................................................... 98 5.4 Recherches futures ............................................................................................. 98 ANNEXEA .................................................................................................................. 99 APPENDICE A ......................................................................................................... 103 BIBLIOGRAPHIE .................................................................................................... 105 LISTE DES FIGURES Figure Page Figure 2.1 Interprétation de la courbe ROC ............................................................ 24 Figure 3.1 Processus de la démarche ....................................................................... 41 Figure 3.2 Description des 8 fichiers WARC .......................................................... 43 Figure 3.3 Schéma de lajointure ............................................................................. 46 Figure 3.4 Algorithme: Récupération du contenu des hôtes dont la classe est conntie .................................................................................................... 47 Figure 3.5 Exemple du contenu d'un hôte .............................................................. 48 Figure 3.6 Algorithme de calcul de la cohérence du titre ....................................... 51 Figure 3.7 Distance entre vecteurs exprimés en cosinus ......................................... 56 Figure 4.1 Performance des algorithmes d'apprentissage sur l'ensemble d'apprentissage WebspamUQAM-2017 ................................................ 79 Figure 4.2 Arbre de décision formé lors de l'application de J48 sur l'ensemble d'apprentissage WebspamUQAM-2017 ................................................ 81 Figure 4.3 Règles de décision obtenues lors de l'application de Jrip sur l'ensemble d'apprentissage WebspamUQAM-2017 ................................................ 82 Figure 4.4 Taux de AUC avec et sans sélection d'attributs ................ , ................... 84 Figure 4.5 Taux de AUC surWebspamUQAM-2017 vs Combinaîson .................. 88 Figure 4.6 Taux des Faux Positifs sur WebspamUQAM-2017 vs Combinaîson .... 88 Figure 4.7 Taux des AUC sur WebspamUK-2007 vs WebspamUK-2007+10 ....... 92 Figure 4.8 Taux des· F-mesure sur WebspamUK-2007 vs WebspamUK-2007+10 attributs de WebspamUQAM-2017 ....................................................... 92 LISTE DES TABLEAUX Tableau Page Tableau 2. 1 Matrice de confusion .......................................................................... 21 Tableau 2. 2 Mesures de performances utilisées dans divers travaux récents ........ 22 Tableau 2. 3 Synthèse des travaux .......................................................................... 33 Tableau 3. 1 Description des caractéristiques du contenu WebspamUK-2007 40 Tableau 3. 2 Description de WebspamUK-2007 ................................................... .44 Tableau 3. 3 Répartition de l'ensemble de données WebspamUK-2007 ............... .44 Tableau 3. 4 Répartition finale des instances utilisées dans l'étude ...................... .48 Tableau 3. 5 Description de la table data ................................................................ 63 Tableau 4. 1 Résultats de classification de l'algorithme J48 76 Tableau 4. 2 Résultats d'exécution de l'algorithme JRIP ........................................ 76 Tableau 4. 3 Résultats de classification de l'algorithme Adaboost ......................... 76 Tableau 4. 4 Résultats de classification de l'algorithme Logitboost ....................... 77 Tableau 4. 5 Résultats de classification de l'algorithme Random Forest ................ 77 Tableau 4. 6 Résultats de classification de l'algorithme Réseau de neurones ......... 77 Tableau 4. 7 Résultats de classification de l'algorithme LMT ................................ 78 Tableau 4. 8 Résultats de classification de l'algorithme Decision Table ................ 78 Tableau 4. 9 Résultats de classification de l'algorithme SVM ................................ 78 Tableau 4. 10 Résultats de classification de l'algorithme KNN ................................ 79 Tableau 4. 11 Résultats de classifications de plusieurs algorithmes sur l'ensemble WebspamUQAM-2017 avec 3 classes de données ............................ 86 Tableau 4. 12 Comparaison de l'approche proposée avec les approches existantes. 91 RÉSUMÉ Face à l'augmentation de l'information disponible sur le Web, la quantité de données textuelles disponibles pour les utilisateurs est devenue très importante. Selon un dernier sondage1, la taille du Web est d'au moins 4,8 milliards de pages, dont plusieurs sont, soit dupliquées soit du spam. Les pages qui trompent les algorithmes de classement dans les moteurs de recherche afin d'avancer leur classement dans les uploads/Geographie/evaluation-pdf.pdf

  • 40
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager