Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review

HAGANI, ABla

Full metadata record

DC Field	Value	Language
dc.contributor.author	HAGANI, ABla	-
dc.date.accessioned	2026-06-28T07:56:43Z	-
dc.date.available	2026-06-28T07:56:43Z	-
dc.date.issued	2025	-
dc.identifier.uri	https://repository.esi-sba.dz/jspui/handle/123456789/856	-
dc.description	Supervisor : Pr. BENSLIMANE Sidi Mohamed / Co-Supervisor : Pr. ZIOU Djemel	en_US
dc.description.abstract	Traditional web scraping methods struggle with the increasingly dynamic and heterogeneous nature of modern web architectures. This thesis presents a comprehensive theoretical analysis and state-of-the-art review of how Large Language Models (LLMs) are transforming web scraping and structured data extraction. Through systematic literature review and comparative analysis, this research explores the shift from rule-based extraction methods to intelligent, semantically-aware approaches powered by transformer architectures. The study examines how LLMs leverage natural language understanding, few-shot learning, and context-aware processing to overcome limitations in structural variability, dynamic content generation, and cross-domain adaptability. The research analyzes current LLM-based extraction methodologies, from direct promptbased approaches to multi-modal frameworks integrating visual and textual web understanding. Our comparative evaluation reveals significant advances in extraction accuracy and generalization capabilities, while identifying challenges in processing speed, computational costs, and reliability. This work contributes a comprehensive theoretical framework for understanding LLM applications in web extraction and identifies promising directions for advancing intelligent data extraction technologies.*** Les méthodes traditionnelles de scraping web rencontrent des difficultés face à la nature de plus en plus dynamique et hétérogène des architectures web modernes. Ce mémoire présente une analyse théorique approfondie ainsi qu’un état de l’art sur la manière dont les grands modèles de langage (LLMs) transforment l’extraction de données structurées à partir du web. À travers une revue systématique de la littérature et une analyse comparative, cette recherche explore la transition des méthodes basées sur des règles vers des approches intelligentes et sémantiquement informées, reposant sur les architectures de type transformeur. L’étude examine comment les LLMs exploitent la compréhension du langage naturel, l’apprentissage par quelques exemples (few-shot learning) et le traitement contextuel pour surmonter les limites liées à la variabilité structurelle, à la génération dynamique de contenu et à l’adaptabilité inter-domaines. La recherche analyse les méthodologies actuelles d’extraction basées sur les LLMs, allant des approches directes par prompts aux cadres multi-modaux intégrant la compréhension textuelle et visuelle des pages web. Notre évaluation comparative met en évidence des avancées notables en termes de précision d’extraction et de capacités de généralisation, tout en identifiant des défis tels que la vitesse de traitement, les coûts computationnels et la fiabilité. Ce travail apporte un cadre théorique complet pour comprendre les applications des LLMs dans l’extraction de données web et identifie des pistes prometteuses pour faire progresser les technologies d’extraction intelligente.	en_US
dc.language.iso	en	en_US
dc.subject	Large Language Models	en_US
dc.subject	Web Scraping	en_US
dc.subject	Data Extraction	en_US
dc.subject	Natural Language Processing	en_US
dc.subject	Information Retrieval	en_US
dc.subject	Transformer Architecture	en_US
dc.subject	Multi-modal Learning	en_US
dc.subject	Prompt Engineering	en_US
dc.subject	Semantic Understanding	en_US
dc.subject	Automated Extraction	en_US
dc.title	Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review	en_US
dc.type	Thesis	en_US
Appears in Collections:	Master