https://repository.esi-sba.dz/jspui/handle/123456789/856| Title: | Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review |
| Authors: | HAGANI, ABla |
| Keywords: | Large Language Models Web Scraping Data Extraction Natural Language Processing Information Retrieval Transformer Architecture Multi-modal Learning Prompt Engineering Semantic Understanding Automated Extraction |
| Issue Date: | 2025 |
| Abstract: | Traditional web scraping methods struggle with the increasingly dynamic and heterogeneous nature of modern web architectures. This thesis presents a comprehensive theoretical analysis and state-of-the-art review of how Large Language Models (LLMs) are transforming web scraping and structured data extraction. Through systematic literature review and comparative analysis, this research explores the shift from rule-based extraction methods to intelligent, semantically-aware approaches powered by transformer architectures. The study examines how LLMs leverage natural language understanding, few-shot learning, and context-aware processing to overcome limitations in structural variability, dynamic content generation, and cross-domain adaptability. The research analyzes current LLM-based extraction methodologies, from direct promptbased approaches to multi-modal frameworks integrating visual and textual web understanding. Our comparative evaluation reveals significant advances in extraction accuracy and generalization capabilities, while identifying challenges in processing speed, computational costs, and reliability. This work contributes a comprehensive theoretical framework for understanding LLM applications in web extraction and identifies promising directions for advancing intelligent data extraction technologies.*** Les méthodes traditionnelles de scraping web rencontrent des difficultés face à la nature de plus en plus dynamique et hétérogène des architectures web modernes. Ce mémoire présente une analyse théorique approfondie ainsi qu’un état de l’art sur la manière dont les grands modèles de langage (LLMs) transforment l’extraction de données structurées à partir du web. À travers une revue systématique de la littérature et une analyse comparative, cette recherche explore la transition des méthodes basées sur des règles vers des approches intelligentes et sémantiquement informées, reposant sur les architectures de type transformeur. L’étude examine comment les LLMs exploitent la compréhension du langage naturel, l’apprentissage par quelques exemples (few-shot learning) et le traitement contextuel pour surmonter les limites liées à la variabilité structurelle, à la génération dynamique de contenu et à l’adaptabilité inter-domaines. La recherche analyse les méthodologies actuelles d’extraction basées sur les LLMs, allant des approches directes par prompts aux cadres multi-modaux intégrant la compréhension textuelle et visuelle des pages web. Notre évaluation comparative met en évidence des avancées notables en termes de précision d’extraction et de capacités de généralisation, tout en identifiant des défis tels que la vitesse de traitement, les coûts computationnels et la fiabilité. Ce travail apporte un cadre théorique complet pour comprendre les applications des LLMs dans l’extraction de données web et identifie des pistes prometteuses pour faire progresser les technologies d’extraction intelligente. |
| Description: | Supervisor : Pr. BENSLIMANE Sidi Mohamed / Co-Supervisor : Pr. ZIOU Djemel |
| URI: | https://repository.esi-sba.dz/jspui/handle/123456789/856 |
| Appears in Collections: | Master |
| File | Description | Size | Format | |
|---|---|---|---|---|
| Master_Report___Stage___Mýmoire_ABLA_HAGANI-1-1.pdf | 84,43 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.