| DC Field | Value | Language |
| dc.contributor.author | BOUDALI, RIadh | - |
| dc.date.accessioned | 2026-06-22T07:35:09Z | - |
| dc.date.available | 2026-06-22T07:35:09Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | https://repository.esi-sba.dz/jspui/handle/123456789/838 | - |
| dc.description | Supervisor : Dr. Serhane Oussama | en_US |
| dc.description.abstract | The rapid proliferation of misinformation on social media has made automated
detection a critical research priority. This thesis presents a focused, systematic
study of deep learning approaches for multimodal fake-news detection, emphasizing
the joint use of textual and visual signals. We review and categorize methods
across three axes: text-based techniques (including transformer hybrids), imagebased
forensic and deep models (CNNs, Vision Transformers), and multimodal
frameworks that fuse or explicitly assess cross-modal consistency (e.g., adversarial
event-invariant models, MVAE, SAFE, and recent CLIP-guided and multi-scale
attention systems). Through comparative analysis of datasets, architectures, and
evaluation protocols, we identify key strengths — notably the semantic alignment
offered by pretrained vision–language models — and persistent weaknesses, including
dataset scarcity, modality imbalance, domain shift, computational cost, and
limited explainability. Our contribution is a consolidated taxonomy, critical synthesis
of results, and a set of recommended directions for future work: (i) designing
data-efficient, domain-adaptive multimodal models, (ii) improving interpretability
for real-world deployment, and (iii) developing robust defenses against evolving
adversarial misinformation. The thesis demonstrates that combining cross-modal
semantic reasoning with pretrained vision–language backbones yields the most
promising path toward robust, generalizable fake-news detection.****
La diffusion rapide de la désinformation sur les réseaux sociaux exige des approches
automatiques performantes. Ce mémoire propose une étude systématique des approches
d’apprentissage profond pour la détection multimodale de fake news, centrée
sur l’analyse conjointe du texte et de l’image. Nous présentons une taxonomie
des méthodes : approches textuelles (notamment les modèles Transformer et leurs
hybrides), approches visuelles (méthodes forensiques, CNN, Vision Transformers)
et méthodes multimodales qui fusionnent les modalités ou évaluent explicitement
la cohérence sémantique (par ex. EANN, MVAE, SAFE, puis des modèles récents
guidés par CLIP ou par attention multi-échelle). Par une comparaison critique des
jeux de données, architectures et protocoles d’évaluation, nous mettons en évidence
les progrès (alignement sémantique via modèles vision-language préentraînés) ainsi
que les limites persistantes : faiblesse des jeux de données, déséquilibre de modalités,
décalage de domaine, coût computationnel et manque d’explicabilité. Les
contributions incluent une synthèse critique, une classification structurée des approches
et des pistes futures : (i) modèles multimodaux économes en données
et adaptatifs au domaine, (ii) mécanismes d’explicabilité pour l’utilisation réelle,
(iii) stratégies robustes face aux menaces adversariales évolutives. L’étude conclut
que l’intégration de l’alignement sémantique inter-modal avec des backbones
vision-language constitue la direction la plus prometteuse. | en_US |
| dc.language.iso | en | en_US |
| dc.subject | Fake News Detection | en_US |
| dc.subject | M ultimodal Learning | en_US |
| dc.subject | Transformers | en_US |
| dc.subject | CLIP | en_US |
| dc.subject | Semantic A lignment | en_US |
| dc.title | Deep Learning Approaches for Multimodal Fake News Detection Text and Image Perspectives | en_US |
| dc.type | Thesis | en_US |
| Appears in Collections: | Master
|