DC Field | Value | Language |
dc.contributor.author | BENLARIA, AYyoub YAssine | - |
dc.contributor.author | DAFI, ADel | - |
dc.date.accessioned | 2023-10-17T13:23:09Z | - |
dc.date.available | 2023-10-17T13:23:09Z | - |
dc.date.issued | 2023 | - |
dc.identifier.uri | https://repository.esi-sba.dz/jspui/handle/123456789/544 | - |
dc.description | Encadrant : Dr. Mediani Mohammed / Dr. Khaldi Belkacem | en_US |
dc.description.abstract | ABSTRACT :
This study explores the development of Natural Language Processing (NLP) tools and
models for the Tamasheq language, a low-resource and underrepresented language spoken
in North Africa. The research focuses on Automatic Speech Recognition (ASR)
and translation tasks, utilizing fine-tuning and data augmentation techniques. Additionally,
a user-friendly TamaLinguist Platform is introduced, providing easier access
and utilization of the developed models. The findings indicate that fine-tuning ASR
models with mixed datasets and integrating features from other languages and models
can significantly enhance accuracy. Moreover, the research demonstrates progress
in Tamasheq text translation, although challenges remain due to limited data and language
structural complexities. This work highlights the potential of NLP advancements
in revitalizing and preserving endangered languages like Tamasheq. ***
Résumé :
Cette étude explore le développement d’outils et de modèles de traitement du langage
naturel (NLP) pour la langue Tamasheq, une langue à faibles ressources et sousreprésentée
parlée en Afrique du Nord. La recherche se concentre sur la reconnaissance
automatique de la parole (ASR) et les tâches de traduction, en utilisant des techniques
de Fine-Tuning et d’augmentation des données. De plus, une plate-forme TamaLinguist
conviviale est introduite, facilitant l’accès et l’utilisation des modèles développés. Les
résultats indiquent quun Fine-Tuning des modèles ASR avec des ensembles de données
mixtes et lintégration de fonctionnalités dautres langages et modèles peuvent améliorer
considérablement la précision. De plus, la recherche démontre des progrès dans la traduction
de textes en Tamasheq, même si des défis subsistent en raison du nombre limité
de données et de la complexité structurelle de la langue. Ce travail met en évidence le
potentiel des progrès de la NLP dans la revitalisation et la préservation de langues en
voie de disparition comme le Tamasheq. | en_US |
dc.language.iso | en | en_US |
dc.subject | Natural Language Processing | en_US |
dc.subject | Automatic Speech Recognition | en_US |
dc.subject | Machine Translation | en_US |
dc.subject | low Resource Language | en_US |
dc.subject | Deep Learning | en_US |
dc.subject | Tamasheq | en_US |
dc.subject | Tuareg | en_US |
dc.subject | Wav2Vec2 | en_US |
dc.subject | M2M | en_US |
dc.title | A Smart NLP System for Tamasheq – Arabic Bilingual Corpus Building | en_US |
dc.type | Thesis | en_US |
Appears in Collections: | Ingénieur
|