Implementation and Evaluation of Machine Learning and Deep Learning Methods for Log-Based Anomaly Detection

KHODJA, YOusra; MESKI, MElissa

Please use this identifier to cite or link to this item: https://repository.esi-sba.dz/jspui/handle/123456789/871

Title:	Implementation and Evaluation of Machine Learning and Deep Learning Methods for Log-Based Anomaly Detection
Authors:	KHODJA, YOusra MESKI, MElissa
Keywords:	Log-based Anomaly Detection HDFS SPIRIT TF–IDF Word2Vec Temporal Features Machine Learning Deep Learning BiLSTM Autoencoder DAGMM Variational Autoencoder Hybrid Models
Issue Date:	2025
Abstract:	Log-based anomaly detection (LAD) has become a critical task for ensuring the reliability and security of large-scale distributed systems. Modern infrastructures, such as Hadoop and Spark, produce massive volumes of logs, making manual analysis infeasible and motivating the use of automated machine learning (ML) and deep learning (DL) solutions. This thesis addresses the LAD problem by designing a complete and reproducible pipeline that combines log parsing, feature engineering, and anomaly detection using a wide spectrum of models. Our contributions are threefold. First, we developed a robust preprocessing framework applied to two benchmark datasets, using session-based grouping and temporal feature extraction for HDFS, and fixed-size time windowing for SPIRIT (which already contains timestamp and temporal fields), while applying both TF–IDF and Word2Vec embeddings to obtain complementary sparse and dense sequence representations. Second, we reimplemented classical ML models (Decision Tree, Random Forest, SVM, Logistic Regression, Isolation Forest, PCA) specifically to integrate temporal features on the HDFS dataset, ensuring fair and consistent comparison. Third, we proposed novel hybrid approaches, including Autoencoder + Clustering, K-Means + IForest, and Incremental PCA, as well as advanced DL models such as a BiLSTM Autoencoder, a BiLSTM-DAGMM hybrid model, and a Variational Autoencoder, achieving improved performance by capturing temporal and structural dependencies in logs. Experiments on HDFS showed that integrating temporal features and hybrid architectures significantly enhances detection accuracy, while on SPIRIT, we demonstrated that shorter fixed-size time windows improve anomaly sensitivity. Finally, we developed a Streamlitbased interactive tool that integrates all components, enabling reproducibility and practical usage. Overall, this work provides a systematic study of LAD, highlights the importance of preprocessing and representation learning (TF–IDF and Word2Vec), and delivers a flexible, extensible framework that can serve as a basis for future research.*** La détection d’anomalies basée sur les journaux (LAD) est devenue une tâche cruciale pour garantir la fiabilité et la sécurité des systèmes distribués à grande échelle. Les infrastructures modernes, telles que Hadoop et Spark, génèrent un volume massif de journaux, rendant leur analyse manuelle impraticable et motivant l’utilisation de solutions automatisées basées sur l’apprentissage automatique (ML) et l’apprentissage profond (DL). Ce mémoire aborde le problème de la LAD en concevant une chaîne de traitement complète et reproductible qui combine le parsing des journaux, l’ingénierie des caractéristiques et la détection d’anomalies à l’aide d’un large éventail de modèles. Nos contributions sont triples. Premièrement, nous avons développé un cadre de prétraitement robuste appliqué à deux jeux de données de référence, en utilisant un regroupement par sessions et l’extraction de caractéristiques temporelles pour HDFS, et un découpage en fenêtres temporelles de taille fixe pour SPIRIT (qui contient déjà des champs temporels), tout en appliquant les représentations TF–IDF et Word2Vec afin d’obtenir des vecteurs de séquences à la fois creux et denses. Deuxièmement, nous avons réimplémenté des modèles classiques de ML (arbre de décision, forêt aléatoire, SVM, régression logistique, isolation forest, PCA) spécifiquement afin d’y intégrer les caractéristiques temporelles sur le jeu de données HDFS, assurant ainsi une comparaison juste et cohérente. Troisièmement, nous avons proposé de nouvelles approches hybrides, incluant Autoencoder + Clustering, K-Means + IForest et PCA incrémental, ainsi que des modèles DL avancés tels qu’un Autoencoder BiLSTM, un modèle hybride BiLSTM-DAGMM et un Autoencoder Variationnel, atteignant de meilleures performances grâce à la capture des dépendances temporelles et structurelles dans les journaux. Les expériences sur HDFS ont montré que l’intégration des caractéristiques temporelles et des architectures hybrides améliore significativement la précision de détection, tandis que sur SPIRIT, nous avons démontré que des fenêtres temporelles plus courtes améliorent la sensibilité aux anomalies. Enfin, nous avons développé un outil interactif basé sur Streamlit intégrant tous les composants, permettant la reproductibilité et l’utilisation pratique. Dans l’ensemble, ce travail propose une étude systématique de la LAD, met en évidence l’importance du prétraitement et de l’apprentissage des représentations (TF–IDF et Word2Vec) et fournit un cadre flexible et extensible pouvant servir de base à de futures recherches.
Description:	Supervisor : Dr. BEKKOUCHE Mohammed / Co-Supervisor :Ms. BENALI Celine
URI:	https://repository.esi-sba.dz/jspui/handle/123456789/871
Appears in Collections:	Ingenieur

Files in This Item:

File	Description	Size	Format
PFE-1-1.pdf		90,45 kB	Adobe PDF	View/Open

Show full item record