https://repository.esi-sba.dz/jspui/handle/123456789/838| Title: | Deep Learning Approaches for Multimodal Fake News Detection Text and Image Perspectives |
| Authors: | BOUDALI, RIadh |
| Keywords: | Fake News Detection M ultimodal Learning Transformers CLIP Semantic A lignment |
| Issue Date: | 2025 |
| Abstract: | The rapid proliferation of misinformation on social media has made automated detection a critical research priority. This thesis presents a focused, systematic study of deep learning approaches for multimodal fake-news detection, emphasizing the joint use of textual and visual signals. We review and categorize methods across three axes: text-based techniques (including transformer hybrids), imagebased forensic and deep models (CNNs, Vision Transformers), and multimodal frameworks that fuse or explicitly assess cross-modal consistency (e.g., adversarial event-invariant models, MVAE, SAFE, and recent CLIP-guided and multi-scale attention systems). Through comparative analysis of datasets, architectures, and evaluation protocols, we identify key strengths — notably the semantic alignment offered by pretrained vision–language models — and persistent weaknesses, including dataset scarcity, modality imbalance, domain shift, computational cost, and limited explainability. Our contribution is a consolidated taxonomy, critical synthesis of results, and a set of recommended directions for future work: (i) designing data-efficient, domain-adaptive multimodal models, (ii) improving interpretability for real-world deployment, and (iii) developing robust defenses against evolving adversarial misinformation. The thesis demonstrates that combining cross-modal semantic reasoning with pretrained vision–language backbones yields the most promising path toward robust, generalizable fake-news detection.**** La diffusion rapide de la désinformation sur les réseaux sociaux exige des approches automatiques performantes. Ce mémoire propose une étude systématique des approches d’apprentissage profond pour la détection multimodale de fake news, centrée sur l’analyse conjointe du texte et de l’image. Nous présentons une taxonomie des méthodes : approches textuelles (notamment les modèles Transformer et leurs hybrides), approches visuelles (méthodes forensiques, CNN, Vision Transformers) et méthodes multimodales qui fusionnent les modalités ou évaluent explicitement la cohérence sémantique (par ex. EANN, MVAE, SAFE, puis des modèles récents guidés par CLIP ou par attention multi-échelle). Par une comparaison critique des jeux de données, architectures et protocoles d’évaluation, nous mettons en évidence les progrès (alignement sémantique via modèles vision-language préentraînés) ainsi que les limites persistantes : faiblesse des jeux de données, déséquilibre de modalités, décalage de domaine, coût computationnel et manque d’explicabilité. Les contributions incluent une synthèse critique, une classification structurée des approches et des pistes futures : (i) modèles multimodaux économes en données et adaptatifs au domaine, (ii) mécanismes d’explicabilité pour l’utilisation réelle, (iii) stratégies robustes face aux menaces adversariales évolutives. L’étude conclut que l’intégration de l’alignement sémantique inter-modal avec des backbones vision-language constitue la direction la plus prometteuse. |
| Description: | Supervisor : Dr. Serhane Oussama |
| URI: | https://repository.esi-sba.dz/jspui/handle/123456789/838 |
| Appears in Collections: | Master |
| File | Description | Size | Format | |
|---|---|---|---|---|
| BOUDALI_Riadh_master-1-1.pdf | 61,58 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.