| DC Field | Value | Language |
| dc.contributor.author | HAGANI, ABla | - |
| dc.date.accessioned | 2026-06-28T07:56:43Z | - |
| dc.date.available | 2026-06-28T07:56:43Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | https://repository.esi-sba.dz/jspui/handle/123456789/856 | - |
| dc.description | Supervisor : Pr. BENSLIMANE Sidi Mohamed / Co-Supervisor : Pr. ZIOU Djemel | en_US |
| dc.description.abstract | Traditional web scraping methods struggle with the increasingly dynamic and heterogeneous
nature of modern web architectures. This thesis presents a comprehensive theoretical
analysis and state-of-the-art review of how Large Language Models (LLMs) are transforming
web scraping and structured data extraction.
Through systematic literature review and comparative analysis, this research explores the
shift from rule-based extraction methods to intelligent, semantically-aware approaches powered
by transformer architectures. The study examines how LLMs leverage natural language
understanding, few-shot learning, and context-aware processing to overcome limitations in
structural variability, dynamic content generation, and cross-domain adaptability.
The research analyzes current LLM-based extraction methodologies, from direct promptbased
approaches to multi-modal frameworks integrating visual and textual web understanding.
Our comparative evaluation reveals significant advances in extraction accuracy and
generalization capabilities, while identifying challenges in processing speed, computational
costs, and reliability.
This work contributes a comprehensive theoretical framework for understanding LLM
applications in web extraction and identifies promising directions for advancing intelligent
data extraction technologies.***
Les méthodes traditionnelles de scraping web rencontrent des difficultés face à la nature de plus en
plus dynamique et hétérogène des architectures web modernes. Ce mémoire présente une analyse
théorique approfondie ainsi qu’un état de l’art sur la manière dont les grands modèles de langage
(LLMs) transforment l’extraction de données structurées à partir du web.
À travers une revue systématique de la littérature et une analyse comparative, cette recherche
explore la transition des méthodes basées sur des règles vers des approches intelligentes et sémantiquement
informées, reposant sur les architectures de type transformeur. L’étude examine comment
les LLMs exploitent la compréhension du langage naturel, l’apprentissage par quelques exemples
(few-shot learning) et le traitement contextuel pour surmonter les limites liées à la variabilité structurelle,
à la génération dynamique de contenu et à l’adaptabilité inter-domaines.
La recherche analyse les méthodologies actuelles d’extraction basées sur les LLMs, allant des
approches directes par prompts aux cadres multi-modaux intégrant la compréhension textuelle et
visuelle des pages web. Notre évaluation comparative met en évidence des avancées notables en
termes de précision d’extraction et de capacités de généralisation, tout en identifiant des défis tels
que la vitesse de traitement, les coûts computationnels et la fiabilité.
Ce travail apporte un cadre théorique complet pour comprendre les applications des LLMs dans
l’extraction de données web et identifie des pistes prometteuses pour faire progresser les technologies
d’extraction intelligente. | en_US |
| dc.language.iso | en | en_US |
| dc.subject | Large Language Models | en_US |
| dc.subject | Web Scraping | en_US |
| dc.subject | Data Extraction | en_US |
| dc.subject | Natural Language Processing | en_US |
| dc.subject | Information Retrieval | en_US |
| dc.subject | Transformer Architecture | en_US |
| dc.subject | Multi-modal Learning | en_US |
| dc.subject | Prompt Engineering | en_US |
| dc.subject | Semantic Understanding | en_US |
| dc.subject | Automated Extraction | en_US |
| dc.title | Large Language Models in Web Scraping and Structured Data Extraction: A Theoretical Analysis and State-of-the-Art Review | en_US |
| dc.type | Thesis | en_US |
| Appears in Collections: | Master
|