Skip navigation
Please use this identifier to cite or link to this item: https://repository.esi-sba.dz/jspui/handle/123456789/871
Full metadata record
DC FieldValueLanguage
dc.contributor.authorKHODJA, YOusra-
dc.contributor.authorMESKI, MElissa-
dc.date.accessioned2026-06-29T14:41:52Z-
dc.date.available2026-06-29T14:41:52Z-
dc.date.issued2025-
dc.identifier.urihttps://repository.esi-sba.dz/jspui/handle/123456789/871-
dc.descriptionSupervisor : Dr. BEKKOUCHE Mohammed / Co-Supervisor :Ms. BENALI Celineen_US
dc.description.abstractLog-based anomaly detection (LAD) has become a critical task for ensuring the reliability and security of large-scale distributed systems. Modern infrastructures, such as Hadoop and Spark, produce massive volumes of logs, making manual analysis infeasible and motivating the use of automated machine learning (ML) and deep learning (DL) solutions. This thesis addresses the LAD problem by designing a complete and reproducible pipeline that combines log parsing, feature engineering, and anomaly detection using a wide spectrum of models. Our contributions are threefold. First, we developed a robust preprocessing framework applied to two benchmark datasets, using session-based grouping and temporal feature extraction for HDFS, and fixed-size time windowing for SPIRIT (which already contains timestamp and temporal fields), while applying both TF–IDF and Word2Vec embeddings to obtain complementary sparse and dense sequence representations. Second, we reimplemented classical ML models (Decision Tree, Random Forest, SVM, Logistic Regression, Isolation Forest, PCA) specifically to integrate temporal features on the HDFS dataset, ensuring fair and consistent comparison. Third, we proposed novel hybrid approaches, including Autoencoder + Clustering, K-Means + IForest, and Incremental PCA, as well as advanced DL models such as a BiLSTM Autoencoder, a BiLSTM-DAGMM hybrid model, and a Variational Autoencoder, achieving improved performance by capturing temporal and structural dependencies in logs. Experiments on HDFS showed that integrating temporal features and hybrid architectures significantly enhances detection accuracy, while on SPIRIT, we demonstrated that shorter fixed-size time windows improve anomaly sensitivity. Finally, we developed a Streamlitbased interactive tool that integrates all components, enabling reproducibility and practical usage. Overall, this work provides a systematic study of LAD, highlights the importance of preprocessing and representation learning (TF–IDF and Word2Vec), and delivers a flexible, extensible framework that can serve as a basis for future research.*** La détection d’anomalies basée sur les journaux (LAD) est devenue une tâche cruciale pour garantir la fiabilité et la sécurité des systèmes distribués à grande échelle. Les infrastructures modernes, telles que Hadoop et Spark, génèrent un volume massif de journaux, rendant leur analyse manuelle impraticable et motivant l’utilisation de solutions automatisées basées sur l’apprentissage automatique (ML) et l’apprentissage profond (DL). Ce mémoire aborde le problème de la LAD en concevant une chaîne de traitement complète et reproductible qui combine le parsing des journaux, l’ingénierie des caractéristiques et la détection d’anomalies à l’aide d’un large éventail de modèles. Nos contributions sont triples. Premièrement, nous avons développé un cadre de prétraitement robuste appliqué à deux jeux de données de référence, en utilisant un regroupement par sessions et l’extraction de caractéristiques temporelles pour HDFS, et un découpage en fenêtres temporelles de taille fixe pour SPIRIT (qui contient déjà des champs temporels), tout en appliquant les représentations TF–IDF et Word2Vec afin d’obtenir des vecteurs de séquences à la fois creux et denses. Deuxièmement, nous avons réimplémenté des modèles classiques de ML (arbre de décision, forêt aléatoire, SVM, régression logistique, isolation forest, PCA) spécifiquement afin d’y intégrer les caractéristiques temporelles sur le jeu de données HDFS, assurant ainsi une comparaison juste et cohérente. Troisièmement, nous avons proposé de nouvelles approches hybrides, incluant Autoencoder + Clustering, K-Means + IForest et PCA incrémental, ainsi que des modèles DL avancés tels qu’un Autoencoder BiLSTM, un modèle hybride BiLSTM-DAGMM et un Autoencoder Variationnel, atteignant de meilleures performances grâce à la capture des dépendances temporelles et structurelles dans les journaux. Les expériences sur HDFS ont montré que l’intégration des caractéristiques temporelles et des architectures hybrides améliore significativement la précision de détection, tandis que sur SPIRIT, nous avons démontré que des fenêtres temporelles plus courtes améliorent la sensibilité aux anomalies. Enfin, nous avons développé un outil interactif basé sur Streamlit intégrant tous les composants, permettant la reproductibilité et l’utilisation pratique. Dans l’ensemble, ce travail propose une étude systématique de la LAD, met en évidence l’importance du prétraitement et de l’apprentissage des représentations (TF–IDF et Word2Vec) et fournit un cadre flexible et extensible pouvant servir de base à de futures recherches.en_US
dc.language.isoenen_US
dc.subjectLog-based Anomaly Detectionen_US
dc.subjectHDFSen_US
dc.subjectSPIRITen_US
dc.subjectTF–IDFen_US
dc.subjectWord2Vecen_US
dc.subjectTemporal Featuresen_US
dc.subjectMachine Learningen_US
dc.subjectDeep Learningen_US
dc.subjectBiLSTM Autoencoderen_US
dc.subjectDAGMMen_US
dc.subjectVariational Autoencoderen_US
dc.subjectHybrid Modelsen_US
dc.titleImplementation and Evaluation of Machine Learning and Deep Learning Methods for Log-Based Anomaly Detectionen_US
dc.typeThesisen_US
Appears in Collections:Ingenieur

Files in This Item:
File Description SizeFormat 
PFE-1-1.pdf90,45 kBAdobe PDFView/Open
Show simple item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.