Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review

HAGANI, ABla

Please use this identifier to cite or link to this item: https://repository.esi-sba.dz/jspui/handle/123456789/856

Title:	Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review
Authors:	HAGANI, ABla
Keywords:	Large Language Models Web Scraping Data Extraction Natural Language Processing Information Retrieval Transformer Architecture Multi-modal Learning Prompt Engineering Semantic Understanding Automated Extraction
Issue Date:	2025
Abstract:	Traditional web scraping methods struggle with the increasingly dynamic and heterogeneous nature of modern web architectures. This thesis presents a comprehensive theoretical analysis and state-of-the-art review of how Large Language Models (LLMs) are transforming web scraping and structured data extraction. Through systematic literature review and comparative analysis, this research explores the shift from rule-based extraction methods to intelligent, semantically-aware approaches powered by transformer architectures. The study examines how LLMs leverage natural language understanding, few-shot learning, and context-aware processing to overcome limitations in structural variability, dynamic content generation, and cross-domain adaptability. The research analyzes current LLM-based extraction methodologies, from direct promptbased approaches to multi-modal frameworks integrating visual and textual web understanding. Our comparative evaluation reveals significant advances in extraction accuracy and generalization capabilities, while identifying challenges in processing speed, computational costs, and reliability. This work contributes a comprehensive theoretical framework for understanding LLM applications in web extraction and identifies promising directions for advancing intelligent data extraction technologies.*** Les méthodes traditionnelles de scraping web rencontrent des difficultés face à la nature de plus en plus dynamique et hétérogène des architectures web modernes. Ce mémoire présente une analyse théorique approfondie ainsi qu’un état de l’art sur la manière dont les grands modèles de langage (LLMs) transforment l’extraction de données structurées à partir du web. À travers une revue systématique de la littérature et une analyse comparative, cette recherche explore la transition des méthodes basées sur des règles vers des approches intelligentes et sémantiquement informées, reposant sur les architectures de type transformeur. L’étude examine comment les LLMs exploitent la compréhension du langage naturel, l’apprentissage par quelques exemples (few-shot learning) et le traitement contextuel pour surmonter les limites liées à la variabilité structurelle, à la génération dynamique de contenu et à l’adaptabilité inter-domaines. La recherche analyse les méthodologies actuelles d’extraction basées sur les LLMs, allant des approches directes par prompts aux cadres multi-modaux intégrant la compréhension textuelle et visuelle des pages web. Notre évaluation comparative met en évidence des avancées notables en termes de précision d’extraction et de capacités de généralisation, tout en identifiant des défis tels que la vitesse de traitement, les coûts computationnels et la fiabilité. Ce travail apporte un cadre théorique complet pour comprendre les applications des LLMs dans l’extraction de données web et identifie des pistes prometteuses pour faire progresser les technologies d’extraction intelligente.
Description:	Supervisor : Pr. BENSLIMANE Sidi Mohamed / Co-Supervisor : Pr. ZIOU Djemel
URI:	https://repository.esi-sba.dz/jspui/handle/123456789/856
Appears in Collections:	Master

Files in This Item:

File	Description	Size	Format
Master_Report___Stage___Mýmoire_ABLA_HAGANI-1-1.pdf		84,43 kB	Adobe PDF	View/Open

Show full item record