https://repository.esi-sba.dz/jspui/handle/123456789/544
Title: | A Smart NLP System for Tamasheq – Arabic Bilingual Corpus Building |
Authors: | BENLARIA, AYyoub YAssine DAFI, ADel |
Keywords: | Natural Language Processing Automatic Speech Recognition Machine Translation low Resource Language Deep Learning Tamasheq Tuareg Wav2Vec2 M2M |
Issue Date: | 2023 |
Abstract: | ABSTRACT : This study explores the development of Natural Language Processing (NLP) tools and models for the Tamasheq language, a low-resource and underrepresented language spoken in North Africa. The research focuses on Automatic Speech Recognition (ASR) and translation tasks, utilizing fine-tuning and data augmentation techniques. Additionally, a user-friendly TamaLinguist Platform is introduced, providing easier access and utilization of the developed models. The findings indicate that fine-tuning ASR models with mixed datasets and integrating features from other languages and models can significantly enhance accuracy. Moreover, the research demonstrates progress in Tamasheq text translation, although challenges remain due to limited data and language structural complexities. This work highlights the potential of NLP advancements in revitalizing and preserving endangered languages like Tamasheq. *** Résumé : Cette étude explore le développement d’outils et de modèles de traitement du langage naturel (NLP) pour la langue Tamasheq, une langue à faibles ressources et sousreprésentée parlée en Afrique du Nord. La recherche se concentre sur la reconnaissance automatique de la parole (ASR) et les tâches de traduction, en utilisant des techniques de Fine-Tuning et d’augmentation des données. De plus, une plate-forme TamaLinguist conviviale est introduite, facilitant l’accès et l’utilisation des modèles développés. Les résultats indiquent quun Fine-Tuning des modèles ASR avec des ensembles de données mixtes et lintégration de fonctionnalités dautres langages et modèles peuvent améliorer considérablement la précision. De plus, la recherche démontre des progrès dans la traduction de textes en Tamasheq, même si des défis subsistent en raison du nombre limité de données et de la complexité structurelle de la langue. Ce travail met en évidence le potentiel des progrès de la NLP dans la revitalisation et la préservation de langues en voie de disparition comme le Tamasheq. |
Description: | Encadrant : Dr. Mediani Mohammed / Dr. Khaldi Belkacem |
URI: | https://repository.esi-sba.dz/jspui/handle/123456789/544 |
Appears in Collections: | Ingénieur |
File | Description | Size | Format | |
---|---|---|---|---|
PFE_final-1-1.pdf | 78,35 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.