Analyse de sentiments des vidéos en dialecte algérien Mohamed Amine Menacer1 Ka
Analyse de sentiments des vidéos en dialecte algérien Mohamed Amine Menacer1 Karima Abidi1 Nouha Othman1,2 Kamel Smaïli1 (1) LORIA, Campus Scientifique, BP 239, 54506 Vandoeuvre-lès-Nancy, France (2) LARODEC, Institut Supérieur de Gestion de Tunis, 2000 Bardo, Tunisia {mohamed-amine.menacer,karima.abidi,nouha.othman,kamel.smaili}@loria.fr RÉSUMÉ La plupart des travaux existant sur l’analyse de sentiments traitent l’arabe standard moderne et ne prennent pas en considération les spécificités de l’arabe dialectal. Cet article présente un système d’analyse de sentiments de textes extraits de vidéos exprimées en dialecte algérien. Dans ce travail, nous avons deux défis à surmonter, la reconnaissance automatique de la parole pour le dialecte algérien et l’analyse de sentiments du texte reconnu. Le développement du système de reconnaissance automatique de la parole est basé sur un corpus oral restreint. Pour pallier le manque de données, nous proposons d’exploiter des données ayant un impact sur le dialecte algérien, à savoir l’arabe standard et le français. L’analyse de sentiments est fondée sur la détection automatique de la polarité des mots en fonction de leur proximité sémantique avec d’autres mots ayant une polarité prédéterminée. ABSTRACT Sentiment analysis of videos in Algerian dialect Most of the existing works on sentiment analysis deal only with Modern Standard Arabic (MSA), and do not take into account the dialects. This article presents a system for analyzing the sentiments of the utterances extracted from videos, in which the language used is Algerian dialects. We have two challenges to overcome, the automatic speech recognition for the Algerian dialect and the sentiment analysis of the recognized text. A spoken corpus has been recorded in order to develop a baseline system for recognizing the videos. This system is then improved by taking advantage of the acoustic data having an impact on the Algerian dialect, namely standard Arabic and French. The sentiment analysis is based on the automatic detection of the polarity of words according to their semantic proximity to other words with a predetermined polarity. MOTS-CLÉS : Analyse de sentiments, Dialecte algérien, Vidéos, Reconnaissance automatique de la parole. KEYWORDS: Sentiment analysis, Algerian dialect, Videos, Automatic speech recognition. 1 Introduction Plusieurs recherches ont été conduites sur la langue arabe. En revanche, la majorité des travaux destinés au traitement automatique de la langue arabe écrite s’est focalisée, de façon presque exclusive, sur l’arabe moderne standard, en laissant de côté les formes vernaculaires. En effet, l’arabe moderne standard est la langue officielle dans le monde arabe. Elle se trouve principalement dans les livres, les journaux, les magazines, et les médias officiels. Elle représente la forme de l’arabe universel enseignée dans les écoles et utilisée dans les discussions formelles. Cependant, la communication Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition) Nancy, France, 08-19 juin 2020 Volume 2 : Traitement Automatique des Langues Naturelles, pages 296–304. hal : hal-02784779. Cette œuvre est mise à disposition sous licence Attribution 4.0 International. dans la vie quotidienne se fait à travers le dialecte qui est propre à chaque région du monde arabe. Cette forme parlée est essentiellement basée sur l’arabe moderne standard en relâchant plusieurs contraintes morpho-syntaxiques de la langue d’origine pour laisser place à une langue informelle plus simple d’usage. Le dialecte est parfois combiné avec d’autres langues étrangères comme le français ou l’anglais et il ne s’agit pas de simples emprunts, mais d’utilisation de phrases entières en langues étrangères. Depuis l’apparition des réseaux sociaux, la communauté TAL s’est lancée dans une activité de recherche accrue sur les dialectes arabes. En effet, les internautes expriment leurs sentiments et opinions à propos de différents sujets dans les réseaux sociaux essentiellement en dialecte. L’analyse de sentiments qu’elle soit parlée ou textuelle est un domaine riche en publications (Kiritchenko et al., 2016; Barhoumi et al., 2018; Brahimi et al., 2019). Néanmoins, très peu de travaux dans ce domaine ont été réalisés sur les dialectes. Dans ce travail, nous nous intéressons à l’étude de sentiments dans les réseaux sociaux où le dialecte algérien est utilisé comme support de communication. Pour ce faire, nous proposons un système de détection de la polarité (sentiment positif ou négatif) pour une collection de vidéos en dialecte algérien. Ces vidéos sont collectées à partir des chaînes algériennes disponibles sur YouTube. Les vidéos sont transcrites à l’aide d’un système de reconnaissance automatique de la parole (SRAP) pour le dialecte algérien, et ensuite l’étude de sentiments est effectué sur les transcriptions. Le dialecte algérien est l’un des dialectes les plus difficiles à reconnaître par un SRAP. Cela est dû au fait que cette variante de la langue arabe utilise de nombreuses séquences de mots empruntées (principalement de la langue française). En outre, dans ce dialecte les mots de l’arabe standard sont altérés phonologiquement afin d’en faciliter la prononciation (Harrat et al., 2017, 2018). Par ailleurs, les mots empruntés peuvent être utilisés tels quels, ou ils peuvent être modifiés afin de respecter la structure morphologique de la langue arabe. Pour construire un SRAP robuste, il faut disposer d’une grande quantité de données orales et écrites de la langue à reconnaître. Malheureusement, ce type de données n’existe pas pour le dialecte algérien puisqu’il est principalement parlé de plus, il n’existe pas de normes ni de règles pour l’écrire ce qui rend le traitement des textes existant plus complexe. Notre approche pour reconnaître le dialecte algérien est d’exploiter des données d’autres langues ayant un impact sur le dialecte, à savoir le MSA et le français. Une autre ressource primordiale dans les SRAP est le dictionnaire de prononciation. L’approche la plus simple pour le générer se base sur la décomposition en caractères de chaque mot pour avoir sa prononciation (Le & Besacier, 2009; Killer et al., 2003; Gizaw, 2008). Une autre approche consiste à utiliser des méthodes statistiques pour convertir les graphèmes en phonèmes (Cucu et al., 2011; Karanasou & Lamel, 2010; Harrat et al., 2014; Masmoudi et al., 2018). C’est cette approche que nous avons adoptée pour notre système. Une fois la transcription des vidéos est générée par le SRAP, nous procédons ensuite à l’analyse de sentiments qui est basée sur la détection de polarité des mots dialectaux composant cette transcription. Cette polarité est déterminée en fonction des mots proches ayant une orientation prédéterminée. 2 Les corpus Afin de développer et évaluer un système permettant l’analyse de sentiments de vidéos en dialecte algérien, nous avons utilisé plusieurs sources de données qui sont décrites ci-dessous : 297 YouTubAlg : nous utilisons ce corpus pour calculer l’orientation sémantique des mots du dialecte algérien et pour apprendre le modèle de langage du SRAP. Il comporte des commentaires collectés à partir de YouTube en utilisant l’API 1 de Google. Pour récupérer un maximum de données correspondant au dialecte algérien, nous avons utilisé une liste de mots-clés spécifiques dressée au préalable. Ces mots-clés correspondent principalement à des évènements ou à des personnalités connues relatives à l’actualité algérienne et ne présentant aucun intérêt au niveau international. En effet, ce principe a été utilisé pour éliminer l’éventualité de collecter des commentaires d’arabophone autres qu’algériens. Le corpus obtenu est composé de 18,3M de mots (Abidi et al., 2017)). ADIC : l’apprentissage du modèle acoustique dans les SRAP est basé sur une collection de données orales avec leur transcription. ADIC (Algerian DIalect Corpus) a été construit en enregistrant, à l’aide d’un microphone unidirectionnel professionnel, 4,6k phrases par 7 locuteurs natifs algériens. Les phrases ont été sélectionnées à partir de deux corpus : YouTubAlg et PADIC (Meftouh et al., 2015, 2018). Ce dernier est une collection de 6,4K phrases en arabe standard avec leurs traductions dans plusieurs dialectes arabes dont deux dialectes algériens. Le corpus obtenu contient 6 heures de parole réparties comme suit : 240 minutes sont utilisées pour l’apprentissage, 40 minutes pour la validation et 70 minutes pour le test. SentAlgVid : nous utilisons ce corpus pour l’évaluation finale de notre modèle d’analyse de senti- ments de vidéos en dialecte. SentAlgVid est une collection de vidéos en dialecte diffusées par des chaînes de télévision algériennes comme Ennahar TV, Echorouk TV, et El Bilad TV. Le nombre total de vidéos est égale à 30 vidéos d’une durée moyenne de 2 minutes. Les vidéos de ce corpus ont été annotées manuellement en termes de polarité (positive et négative) par des locuteurs natifs. 3 Modèles proposés Dans ce travail, nous avons deux défis à surmonter, la RAP du dialecte algérien et l’analyse de sentiments de ce dernier. Le modèle final est basé sur une architecture pipeline où la sortie du SRAP est utilisée comme entrée de système de l’analyse de sentiments. Dans ce qui suit, nous présentons chaque composant du modèle final proposé. 3.1 Reconnaissance automatique de la parole pour le dialecte algérien Le développement d’un SRAP est basé sur trois composants : le modèle acoustique modélisant le système phonologique de la langue, le modèle de langage assurant le respect des règles grammaticales et le modèle de prononciation définissant le vocabulaire et les différentes variantes de prononciation. 3.1.1 La modélisation uploads/Management/ 2020-jeptalnrecital-taln-29.pdf
Documents similaires










-
38
-
0
-
0
Licence et utilisation
Gratuit pour un usage personnel Attribution requise- Détails
- Publié le Jui 27, 2022
- Catégorie Management
- Langue French
- Taille du fichier 0.6596MB