Log-Based Anomaly Detection: A Literature Review, Comparative Evaluation, and Future Directions

KHODJA, YOusra; MESKI, MElissa

Full metadata record

DC Field	Value	Language
dc.contributor.author	KHODJA, YOusra	-
dc.contributor.author	MESKI, MElissa	-
dc.date.accessioned	2026-06-22T07:48:01Z	-
dc.date.available	2026-06-22T07:48:01Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://repository.esi-sba.dz/jspui/handle/123456789/840	-
dc.description	Supervisor : Dr. BEKKOUCHE Mohammed / Co-Supervisor : Ms. BENALI Celine	en_US
dc.description.abstract	In modern large-scale computing environments, system logs constitute a primary source of information for understanding system behavior and diagnosing faults. However, the everincreasing volume and complexity of logs render manual inspection impractical, creating the need for automated anomaly detection methods. This thesis addresses this challenge by providing a comprehensive study of log-based anomaly detection, covering the fundamentals of log systems, preprocessing techniques such as parsing and log representation, and a systematic exploration of detection methods ranging from traditional approaches to advanced deep learning and transformer-based models. Through an extensive review and evaluation, we observe that statistical and classical machine learning methods are often effective for smaller datasets or logs with limited structural diversity, but they struggle to maintain performance when applied to larger and more complex datasets with diverse templates. Deep learning approaches, particularly recurrent and convolutional architectures, demonstrate improved ability to capture sequential patterns in logs, although they require significant training data and computational resources, and can face difficulties in generalizing across different system environments. Recent transformerbased methods show state-of-the-art performance, as they leverage self-attention to model long-range dependencies in log sequences, achieving superior results in terms of precision, recall, and F1-score across benchmark datasets such as HDFS, BGL, and Thunderbird. Overall, the results confirm that while traditional methods remain useful in certain constrained scenarios, the future of log anomaly detection lies in advanced sequence modeling approaches, with transformer-based architectures emerging as the most promising direction.*** Dans les environnements informatiques modernes à grande échelle, les journaux système constituent une source d’information essentielle pour comprendre le comportement des systèmes et diagnostiquer les pannes. Cependant, l’augmentation constante du volume et de la complexité des journaux rend l’inspection manuelle impraticable, ce qui crée un besoin urgent de méthodes automatisées de détection d’anomalies. Ce mémoire répond à ce défi en proposant une étude complète de la détection d’anomalies basée sur les journaux, couvrant les fondements des systèmes de logs, les techniques de prétraitement telles que l’analyse syntaxique et la représentation des journaux, ainsi qu’une exploration systématique des méthodes de détection allant des approches traditionnelles aux modèles avancés d’apprentissage profond et basés sur les transformateurs. À travers une revue et une évaluation approfondies, nous observons que les méthodes statistiques et d’apprentissage automatique classique s’avèrent souvent efficaces pour les petits jeux de données ou pour des journaux présentant une faible diversité structurelle, mais elles peinent à maintenir leurs performances lorsqu’elles sont appliquées à des ensembles plus vastes et plus complexes avec des modèles de logs variés. Les approches d’apprentissage profond, en particulier les architectures récurrentes et convolutionnelles, démontrent une meilleure capacité à capturer les dépendances séquentielles dans les journaux, bien qu’elles nécessitent des volumes de données d’entraînement importants ainsi que des ressources computationnelles élevées, et qu’elles rencontrent des difficultés à généraliser entre différents environnements systèmes. Les méthodes récentes basées sur les transformateurs affichent des performances à l’état de l’art, car elles exploitent le mécanisme d’auto-attention pour modéliser les dépendances à long terme dans les séquences de logs, obtenant des résultats supérieurs en termes de précision, rappel et F1-score sur des jeux de données de référence tels que HDFS, BGL et Thunderbird. Dans l’ensemble, les résultats confirment que, bien que les méthodes traditionnelles conservent une utilité dans certains scénarios contraints, l’avenir de la détection d’anomalies dans les journaux repose sur des approches avancées de modélisation séquentielle, les architectures basées sur les transformateurs apparaissant comme la direction la plus prometteuse.	en_US
dc.language.iso	en	en_US
dc.subject	System Logs	en_US
dc.subject	Log Anomaly Detection	en_US
dc.subject	Log parsing	en_US
dc.subject	Log representation	en_US
dc.subject	Machine Learning	en_US
dc.subject	Deep Learning	en_US
dc.subject	Transformer Models	en_US
dc.subject	Sequence Modeling	en_US
dc.title	Log-Based Anomaly Detection: A Literature Review, Comparative Evaluation, and Future Directions	en_US
dc.type	Thesis	en_US
Appears in Collections:	Master