Implementation and Evaluation of Machine Learning and Deep Learning Methods for Log-Based Anomaly Detection

KHODJA, YOusra; MESKI, MElissa

Full metadata record

DC Field	Value	Language
dc.contributor.author	KHODJA, YOusra	-
dc.contributor.author	MESKI, MElissa	-
dc.date.accessioned	2026-06-29T14:41:52Z	-
dc.date.available	2026-06-29T14:41:52Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://repository.esi-sba.dz/jspui/handle/123456789/871	-
dc.description	Supervisor : Dr. BEKKOUCHE Mohammed / Co-Supervisor :Ms. BENALI Celine	en_US
dc.description.abstract	Log-based anomaly detection (LAD) has become a critical task for ensuring the reliability and security of large-scale distributed systems. Modern infrastructures, such as Hadoop and Spark, produce massive volumes of logs, making manual analysis infeasible and motivating the use of automated machine learning (ML) and deep learning (DL) solutions. This thesis addresses the LAD problem by designing a complete and reproducible pipeline that combines log parsing, feature engineering, and anomaly detection using a wide spectrum of models. Our contributions are threefold. First, we developed a robust preprocessing framework applied to two benchmark datasets, using session-based grouping and temporal feature extraction for HDFS, and fixed-size time windowing for SPIRIT (which already contains timestamp and temporal fields), while applying both TF–IDF and Word2Vec embeddings to obtain complementary sparse and dense sequence representations. Second, we reimplemented classical ML models (Decision Tree, Random Forest, SVM, Logistic Regression, Isolation Forest, PCA) specifically to integrate temporal features on the HDFS dataset, ensuring fair and consistent comparison. Third, we proposed novel hybrid approaches, including Autoencoder + Clustering, K-Means + IForest, and Incremental PCA, as well as advanced DL models such as a BiLSTM Autoencoder, a BiLSTM-DAGMM hybrid model, and a Variational Autoencoder, achieving improved performance by capturing temporal and structural dependencies in logs. Experiments on HDFS showed that integrating temporal features and hybrid architectures significantly enhances detection accuracy, while on SPIRIT, we demonstrated that shorter fixed-size time windows improve anomaly sensitivity. Finally, we developed a Streamlitbased interactive tool that integrates all components, enabling reproducibility and practical usage. Overall, this work provides a systematic study of LAD, highlights the importance of preprocessing and representation learning (TF–IDF and Word2Vec), and delivers a flexible, extensible framework that can serve as a basis for future research.*** La détection d’anomalies basée sur les journaux (LAD) est devenue une tâche cruciale pour garantir la fiabilité et la sécurité des systèmes distribués à grande échelle. Les infrastructures modernes, telles que Hadoop et Spark, génèrent un volume massif de journaux, rendant leur analyse manuelle impraticable et motivant l’utilisation de solutions automatisées basées sur l’apprentissage automatique (ML) et l’apprentissage profond (DL). Ce mémoire aborde le problème de la LAD en concevant une chaîne de traitement complète et reproductible qui combine le parsing des journaux, l’ingénierie des caractéristiques et la détection d’anomalies à l’aide d’un large éventail de modèles. Nos contributions sont triples. Premièrement, nous avons développé un cadre de prétraitement robuste appliqué à deux jeux de données de référence, en utilisant un regroupement par sessions et l’extraction de caractéristiques temporelles pour HDFS, et un découpage en fenêtres temporelles de taille fixe pour SPIRIT (qui contient déjà des champs temporels), tout en appliquant les représentations TF–IDF et Word2Vec afin d’obtenir des vecteurs de séquences à la fois creux et denses. Deuxièmement, nous avons réimplémenté des modèles classiques de ML (arbre de décision, forêt aléatoire, SVM, régression logistique, isolation forest, PCA) spécifiquement afin d’y intégrer les caractéristiques temporelles sur le jeu de données HDFS, assurant ainsi une comparaison juste et cohérente. Troisièmement, nous avons proposé de nouvelles approches hybrides, incluant Autoencoder + Clustering, K-Means + IForest et PCA incrémental, ainsi que des modèles DL avancés tels qu’un Autoencoder BiLSTM, un modèle hybride BiLSTM-DAGMM et un Autoencoder Variationnel, atteignant de meilleures performances grâce à la capture des dépendances temporelles et structurelles dans les journaux. Les expériences sur HDFS ont montré que l’intégration des caractéristiques temporelles et des architectures hybrides améliore significativement la précision de détection, tandis que sur SPIRIT, nous avons démontré que des fenêtres temporelles plus courtes améliorent la sensibilité aux anomalies. Enfin, nous avons développé un outil interactif basé sur Streamlit intégrant tous les composants, permettant la reproductibilité et l’utilisation pratique. Dans l’ensemble, ce travail propose une étude systématique de la LAD, met en évidence l’importance du prétraitement et de l’apprentissage des représentations (TF–IDF et Word2Vec) et fournit un cadre flexible et extensible pouvant servir de base à de futures recherches.	en_US
dc.language.iso	en	en_US
dc.subject	Log-based Anomaly Detection	en_US
dc.subject	HDFS	en_US
dc.subject	SPIRIT	en_US
dc.subject	TF–IDF	en_US
dc.subject	Word2Vec	en_US
dc.subject	Temporal Features	en_US
dc.subject	Machine Learning	en_US
dc.subject	Deep Learning	en_US
dc.subject	BiLSTM Autoencoder	en_US
dc.subject	DAGMM	en_US
dc.subject	Variational Autoencoder	en_US
dc.subject	Hybrid Models	en_US
dc.title	Implementation and Evaluation of Machine Learning and Deep Learning Methods for Log-Based Anomaly Detection	en_US
dc.type	Thesis	en_US
Appears in Collections:	Ingenieur