https://repository.esi-sba.dz/jspui/handle/123456789/456
Title: | Talking Taboo Topics with ChatGPT AI: Bais / Sentiment Analysis study / Personality Analysis |
Authors: | MARREF, NOur EL IMene |
Keywords: | Natural Language Processing Large Language Models Chatbots Data Extraction Web Scraping YouTube Data API v3 OpenAi API Data Preprocessing Data Augmentation Machine Learning Transformers BERT ROBERTA ChatGPT Sentiment Analysis OCEAN Personality Analysis Bias |
Issue Date: | 2023 |
Abstract: | Abstract : In the rapidly evolving őeld of AI language models, ChatGPT has emerged as a prominent example, captivating users with its ability to generate human-like responses. However, as these models become increasingly integrated into our daily lives, concerns about potential biases and ethical implications have arisen. This study aims to investigate the presence of bias, analyze sentiment, and examine the impact of the Big Five personality traits on ChatGPT’s interactions when discussing Taboo Topics. Our work focuses on the extraction of data from ChatGPT and Social Media, it involves comparing the responses generated by ChatGPT with real-world user-generated content found on these social media platforms including Twitter and Youtube. To achieve this, we employ advanced methods such as Kernel density, cross-entropy, Kullback-Leibler, Jensen-Shannon, and Wasserstein for measuring the distance and divergence between the two sets of responses. To analyze sentiment, we employ lexicon-based and rule-based approaches for prediction. For personality analysis, we leverage various machine learning algorithms such as SVM, Naive Bayes, Random Forest, Logistic Regression, Decision Tree, and feature extraction techniques including Bag-of-Words (BOW) and GloVe embeddings. In addition, we utilize transformer models like BERT and ROBERTA. Our models achieve an accuracy of 78.87% and 82.28%, respectively. Through extraction and systematic analysis of annotated data, including sentiment analysis and personality analysis with a speciőc focus on conscientiousness, and the utilization of advanced machine learning techniques and transformers like BERT and Roberta, this project endeavor aims to uncover insights into the presence of biases in AI systems, particularly when discussing taboo topics within ChatGPT. By shedding light on these potential risks, the study contributes to the ongoing discourse surrounding responsible AI development, promoting transparency and fostering a better understanding of the capabilities and limitations of conversational AI models. Ultimately, the goal is to create an environment that upholds fairness and accuracy in AI-powered conversations.*** Résumé : Dans le domaine en constante évolution des modèles de langage IA, ChatGPT s’est imposé comme un exemple prééminent, captivant les utilisateurs avec sa capacité à générer des réponses proches de l’humain. Cependant, à mesure que ces modèles s’intègrent de plus en plus dans notre vie quotidienne, des préoccupations concernant les biais potentiels et les implications éthiques ont émergé. Cette étude vise à investiguer la présence de biais, à analyser les sentiments et à examiner l’impact des cinq grands traits de personnalité sur les interactions de ChatGPT lorsqu’il aborde des sujets tabous. Notre travail se concentre sur l’extraction de données a partir de ChatGPT et des médias sociaux, et implique la comparaison des réponses générées par ChatGPT avec des contenus générés par les utilisateurs du monde réel sur des plateformes de Médias Sociaux telles que Twitter et YouTube. Pour ce faire, nous utilisons des méthodes avancées telles que la densité de noyau, l’entropie croisée, la divergence de Kullback-Leibler, la divergence de Jensen-Shannon et la divergence de Wasserstein pour mesurer la distance et la divergence entre les deux ensembles de réponses. Pour analyser les sentiments, nous utilisons des approches basées sur des lexiques et des règles. Pour l’analyse de la personnalité, nous exploitons divers algorithmes d’apprentissage automatique tels que SVM, Naive Bayes, Random Forest, Régression Logistique, Arbres de Décision, ainsi que des techniques d’extraction de caractéristiques telles que Bag-of-Words (BOW) et les embeddings GloVe. De plus, nous utilisons des modèles de transformation tels que BERT et ROBERTA. Nos modèles atteignent respectivement une précision de 78,87% et 82,28%. Grâce à l’extraction et à l’analyse systématique de données annotées, y compris l’analyse des sentiments et l’analyse de la personnalité en mettant l’accent sur la conscienciosité, et à l’utilisation de techniques avancées d’apprentissage automatique et de modèles de transformation tels que BERT et Roberta, ce projet vise à découvrir des insights sur la présence de biais dans les systèmes d’IA, en particulier lorsqu’il s’agit de sujets tabous dans ChatGPT. En mettant en lumière ces risques potentiels, l’étude contribue au discours actuel sur le développement responsable de l’IA, en favorisant la transparence et une meilleure compréhension des capacités et des limites des modèles d’IA conversationnels. En őn de compte, l’objectif est de créer un environnement qui promeut l’équité et l’exactitude dans les conversations alimentées par l’IA. |
Description: | Supervisor : Pr. BENSLIMANE Sidi Mohammed / Dr. BENABDERRAHMANE Sid Ahmed |
URI: | https://repository.esi-sba.dz/jspui/handle/123456789/456 |
Appears in Collections: | Ingénieur |
File | Description | Size | Format | |
---|---|---|---|---|
PFE_VersionFinal_Imene _Marref-1-1.pdf | 82,56 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.