| DC Field | Value | Language |
| dc.contributor.author | SERRADJ, MOhamed EL AMine | - |
| dc.date.accessioned | 2026-06-22T07:53:26Z | - |
| dc.date.available | 2026-06-22T07:53:26Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | https://repository.esi-sba.dz/jspui/handle/123456789/841 | - |
| dc.description | Supervisor : Mr. Miloud Khaldi | en_US |
| dc.description.abstract | The rapid growth of data-driven artificial intelligence in sensitive domains such as
healthcare has raised urgent concerns about privacy, security, and regulatory compliance.
Traditional centralized learning is increasingly infeasible under legal frameworks such
as GDPR, motivating the adoption of Federated Learning (FL), which enables multiple
institutions to collaboratively train models without sharing raw data.
Among machine learning methods, tree ensembles—including Random Forests (RF)
and Gradient Boosted Decision Trees (GBDTs)—are especially relevant due to their interpretability,
robustness, and predictive performance. However, training such models in
federated settings poses unique challenges, as split selection and leaf evaluation require
data-dependent computations that risk privacy leakage if performed naively.
Two major families of privacy-preserving techniques have dominated recent research.
Differential Privacy (DP) introduces calibrated randomness to protect against inference
attacks, providing quantifiable guarantees at the record level. Secure Multi-Party
Computation (MPC) enables multiple parties to compute aggregate statistics securely
without exposing local data. While both approaches have shown promise independently,
their integration remains underexplored, particularly for Random Forests.
The state of the art (2020–2025) reveals complementary baselines: MPC-only methods
such as FederBoost and FedTree achieve high utility but lack formal output privacy, while
DP-only methods such as those of Maddock, Marković, and Tao provide record-level
guarantees but often suffer from reduced accuracy and incomplete privacy accounting. No
current approach simultaneously achieves DP and MPC in fully decentralized federated
settings, leaving important gaps in scalability, noise placement strategies, and rigorous
privacy composition.
This thesis reviews these advances, identifying open challenges and outlining future
research directions. Key opportunities include hybrid DP+MPC protocols, decentralized
orchestration without central servers, systematic analysis of noise placement, and reproducibility
through open-source implementations. Addressing these challenges is essential
to enable trustworthy, privacy-preserving federated learning for real-world applications
in healthcare and beyond.***
La croissance rapide de l’intelligence artificielle fondée sur les données dans des domaines
sensibles tels que la santé a soulevé des préoccupations majeures en matière de confidentialité,
de sécurité et de conformité réglementaire. L’apprentissage centralisé traditionnel devient de
plus en plus difficile à mettre en oeuvre dans le cadre juridique imposé par des réglementations
comme le RGPD, ce qui motive l’adoption de l’Apprentissage Fédéré (Federated Learning,
FL), permettant à plusieurs institutions de collaborer pour entraîner des modèles sans partager
directement leurs données brutes.
Parmi les méthodes d’apprentissage, les ensembles d’arbres—incluant les Forêts Aléatoires
(Random Forests, RF) et les Arbres de Décision Boostés (Gradient Boosted Decision Trees,
GBDTs)—occupent une place centrale grâce à leur interprétabilité, leur robustesse et leurs
performances prédictives. Cependant, l’entraînement de ces modèles en contexte fédéré pose
des défis spécifiques, car la sélection des divisions et l’évaluation des feuilles impliquent des
calculs dépendants des données susceptibles de compromettre la confidentialité s’ils sont réalisés
naïvement.
Deux grandes familles de techniques de préservation de la vie privée dominent la recherche
actuelle. La Confidentialité Différentielle (Differential Privacy, DP) ajoute un bruit
calibré afin de limiter les attaques d’inférence, garantissant la protection au niveau des enregistrements
individuels. Le Calcul Sécurisé Multi-Parties (Secure Multi-Party Computation,
MPC) permet à plusieurs entités de calculer des statistiques globales de manière
sécurisée sans exposer leurs données locales. Bien que ces deux approches aient montré leur
efficacité séparément, leur intégration reste encore peu étudiée, en particulier pour les forêts
aléatoires.
L’état de l’art (2020–2025) révèle des lignes de base complémentaires : les méthodes fondées
uniquement sur le MPC, comme FederBoost et FedTree, atteignent une utilité élevée mais sans
garanties de confidentialité formelles sur les sorties, tandis que les méthodes basées uniquement
sur la DP, telles que celles de Maddock, Marković et Tao, offrent des garanties au niveau
des enregistrements mais subissent souvent une baisse d’exactitude et un manque d’analyse
complète de la composition de la confidentialité. Aucun travail existant n’atteint aujourd’hui
une combinaison DP+MPC dans un cadre fédéré pleinement décentralisé, ce qui laisse des
lacunes importantes en matière de passage à l’échelle, de stratégies d’injection de bruit et de
rigueur dans l’analyse de la confidentialité.
Ce mémoire passe en revue ces avancées, identifie les défis ouverts et trace des perspectives de
recherche futures. Parmi celles-ci figurent le développement de protocoles hybrides DP+MPC,
l’orchestration décentralisée sans serveur central, l’étude systématique du placement du bruit,
ainsi que la reproductibilité grâce à des implémentations open-source. Relever ces défis est
essentiel pour permettre un apprentissage fédéré respectueux de la vie privée, digne de confiance
et applicable aux domaines sensibles comme la santé et la finance. | en_US |
| dc.language.iso | en | en_US |
| dc.subject | Federated Learning | en_US |
| dc.subject | Privacy-Preserving Machine Learning | en_US |
| dc.subject | Random Forest | en_US |
| dc.subject | Differential Privacy | en_US |
| dc.subject | Secure Multi-Party Computation | en_US |
| dc.subject | Decentralized Systems | en_US |
| dc.title | Privacy-Preserving Federated Random Forest for Healthcare Applications | en_US |
| dc.type | Thesis | en_US |
| Appears in Collections: | Master
|