République du Cameroun **** Paix – Travail – Patrie **** Ministère de l’Enseign

République du Cameroun **** Paix – Travail – Patrie **** Ministère de l’Enseignement Supérieur **** Université de Maroua **** Ecole Nationale Supérieure Polytechnique de Maroua **** Unité de formation Doctorales en Sciences de l’Ingénieur B.P./P.O. Box : 46 Maroua Tel/Fax: +237-22291541 Email : ufdsi@univ-maroua.com Site : http://www.enspm-univ-maroua.com Republic of Cameroon **** Peace – Work – Fatherland **** Ministry of Higher Education **** The University of Maroua **** National Advanced School of Engineering of Maroua **** PhD training unit in Engineering Sciences UNITE DE FORMATION DOCTORALES EN SCIENCES DE L’INGENIEUR PhD TRAINING UNIT IN ENGINEERING SCIENCES DOSSIER DE L’ETUDIANT STUDENT'S FILE Année Académique/ Academic Year 2021-2022 République du Cameroun **** Paix – Travail – Patrie **** Ministère de l’Enseignement Supérieur **** Université de Maroua **** Ecole Nationale Supérieure Polytechnique de Maroua **** Unité de formation Doctorales en Sciences de l’Ingénieur B.P./P.O. Box : 46 Maroua Tel/Fax: +237-22291541 Email : ufdsi@univ-maroua.com Site : http://www.enspm-univ-maroua.com Republic of Cameroon **** Peace – Work – Fatherland **** Ministry of Higher Education **** The University of Maroua **** National Advanced School of Engineering of Maroua **** PhD training unit in Engineering Sciences FICHE DE RENSEIGNEMENTS/ FACT SHEET I : IDENTIFICATION DE L’ETUDIANT / IDENTIFICATION OF THE STUDENT Noms et prénoms : Name and given Name : Date et Lieu de naissance : Date and Place of Birth : ASSANE ADRAMAN MARBA 10/12/1996 à CS DJARENGOL KODEK MAROUA Photo 4X4 4X4 size Picture Numéro CNI ou Passeport : CNI or Passport number : 118307107 CASE RÉSERVÉE À L’ADMINISTRATION Matricule : 21D0697EP N° au fichier central des thèses : II CURSUS ACADEMIQUE/ ACADEMIC CURRICULUM Diplôme / diplôma Date d'obtention Day of award Spécialisation Specialisation Mention Grade Etablissement School Baccalauréat/ General Certificate of Education(GCE) 2015 Serie C PASSABLE LYCEE DE MAGA Diplôme d’ingénieur de travaux ou Licence/ Bachelor of engineering diploma or Bachelor degree Autre diplôme/other certificate 2021 TIC BIEN ENSET DE DOUALA Autre diplôme /Other certificate 2 Autre diplôme /Other certificate 2 République du Cameroun **** Paix – Travail – Patrie **** Ministère de l’Enseignement Supérieur **** Université de Maroua **** Ecole Nationale Supérieure Polytechnique de Maroua **** Unité de formation Doctorales en Sciences de l’Ingénieur B.P./P.O. Box : 46 Maroua Tel/Fax: +237-22291541 Email : ufdsi@univ-maroua.com Site : http://www.enspm-univ-maroua.com Republic of Cameroon **** Peace – Work – Fatherland **** Ministry of Higher Education **** The University of Maroua **** National Advanced School of Engineering of Maroua **** PhD training unit in Engineering Sciences III : Mention Choisie / Selected option INFOTEL AGEPD ENREN GCA………GTC………INFOTEL…..HYMAE……..SCIEN IV- Sujet de la thèse : La reconnaissance automatique de la parole pour des langues peu dotées : cas de fulfuldé V- Nom, grade et institution d'attache du Directeur de thèse HAYATOU OUMAROU (CC, UMa) VI- Engagement du candidat : Je déclare sur l'honneur que les renseignements fournis sont exacts, et m'engage à prendre une inscription en Doctorat dans le strict respect des textes en viveur. A MAROUA , le 22-03-2022 signature ---------------------------------------- VII– Engagement du Directeur : J'approuve le sujet de thèse ci-dessus et m'engage à diriger le candidat ou la candidate conformément à la réglementation régissant le Doctorat/PhD A ----------------------------------------, le---------------------------------, signature --------------------------------------- VIII Avis de l’Unité de formation Doctorale ou du Département : Favorable Défavorable------ A ----------------------------------------, le-----------------------------------, signature --------------------------------------- IX ­Avis de l’établissement : --- Favorable Défavorable------------ A ----------------------------------------, le----------------------------------, signature ---------------------------------------- X- Avis de la commission Scientifique : Favorable Défavorable A ----------------------------------------, le----------------------------------, signature ---------------------------------------- XI– Décision du Recteur : Références ------------------------------------------------------------------------------------ (Attacher/annexer la copie de cette décision) COPIE DE LA DECISION DE RECRUTEMENT COPY OF RECRUITMENT DECISION COPIE DE L’ACTE DE NAISSANCE COPY OF THE BIRTH CERTIFICATE COPIE DE LA CNI OU DU PASSPORT COPY OF THE CNI OR PASSPORT TITRE DE L’AVANT PROJET DE MEMOIRE : RECONNAISSANCE AUTOMATIQUE DE LA PAROLE POUR DES LANGUES PEU DOTEES : CAS DE FULFULDE Présenté en vue de l’obtention partielle du diplôme de Mater Recherche en Sciences de l’Ingénieur Option : INFOR MATIQUE Par ASSANE ADRAMAN MARBA (21D0697EP) Sous la direction de HAYATOU OUMAROU (CC, UMa) Année académique : 2021-2022 RECONNAISSANCE AUTOMATIQUE DE LA PAROLE POUR DES LANGUES PEU DOTEES : CAS DE FULFULDE Contexte : La parole est le mode de communication le plus naturel. Grâce à elle nous pouvons donner une voix à notre volonté et à nos pensées. Nous pouvons l’utiliser pour exprimer des opinions, des idées, des sentiments, des désirs ou pour échanger, transmettre, demander des informations. Aujourd’hui, avec l’évolution de l’outils informatique, elle n’est pas utilisée uniquement pour permettre la communication entre les humains, mais aussi entre l’Homme et la machine. Dès les années 1950, une technologie dite la reconnaissance de la parole ou la reconnaissance vocale, est mise en place pour permettre à l’Homme de dialoguer d’une manière naturelle avec la machine. La reconnaissance de la parole est la technique qui permet l’analyse des sons captés par un microphone pour les transcrire sous forme d’une suite de mots exploitables par les machines. Cette technologie a été constamment améliorée avec l’aide des phonéticiens, linguistes, mathématiciens et ingénieurs, qui ont défini les connaissances acoustiques et linguistiques nécessaires pour bien comprendre la parole d’un humain. Les applications de cette technologie sont très nombreuses. Il s’agit par exemple des logiciels de dictée, des systèmes de commandes etc. Cependant, cette technologie est réservée, pour l’instant, a un très petit nombre de langues. Il s’agit des langues des pays dits développés, ou de langues qui suscitent un intérêt économique ou politique, comme par exemple l’anglais, le français, l’arabe classique, le mandarin, le japonais, l’allemand, l’espagnol et le portugais, entre autres. Mais il y a très peu de recherches qui s’intéressent aux langues peu dotées. Dans le cadre de notre travail, nous nous concentrons sur la langue fulfudè, une langue véhiculaire africaine, également appelée peul ou fulani qui est parlée dans une vingtaine d'Etats d'Afrique. Cette langue a peu de ressources informatiques utilisables pour l’implémentation de technologies en langage nature. Problématique : De nos jours, grâce aux nouvelles techniques d’apprentissage et à la quantité immense de données, les systèmes de reconnaissance vocale actuels peuvent atteindre, pour certaines langues (anglais, par exemple), un taux d’erreur comparable à celui d’un être humain. Cependant, on ne peut pas affirmer que le problème de la reconnaissance vocale soit totalement résolu. Il existe plusieurs pistes de recherche qui restent non-résolues. Certaines sont relatives à la langue (l’accent régional ou étranger, la présence de plusieurs variantes de la langue, le manque de ressources, etc) et d’autres sont relatives au signal de parole (le bruit, le chevauchement entre les locuteurs, les erreurs sémantiques, etc.)[1]. Dans notre cas, le problème majeur reste la langue. Les systèmes de reconnaissance automatique de la parole sont classés en deux grandes catégories selon leur architecture : l’approche probabiliste et la technologie des réseaux de neurones. Quelle que soit l’architecture du système, le but est de constituer une séquence de mots M à partir d’un signal acoustique enregistré A. Trouver M dans l’approche probabiliste est basé sur un modèle acoustique, un lexique de mots avec leurs prononciations et un modèle de langage. Du point de vue linguistique, le modèle acoustique permet de modéliser les observations acoustiques correspondant aux sons de la langue ; le modèle de langage apporte des informations sur les suites possibles de mots et enfin, le lexique définit le vocabulaire et les différentes variantes de prononciation de chaque mot [2]. Dans les systèmes de la technologie de réseaux de neurones, ces trois composants sont remplacés par un seul modèle à base de réseaux de neurones récurrents, Recurrent Neural Network (RNN)[3]. L’avantage de ces approches est qu’elles sont indépendantes de la langue, leur mise en place dépend d’une collection de données de la langue à reconnaître, en particulier des données orales et textuelles. Ainsi, développer le traitement automatique d’une langue peu dotée comme le fulfuldè nécessite l'élaboration de ressources qui seront les fondements à partir desquels des traitements plus élaborés peuvent être construits. Il apparaît indispensable de constituer en premier lieu des corpus écrits et oraux annotés aussi larges que possibles. À partir de tels corpus, il est possible de mettre au point des modèles de langage pour la reconnaissance vocale. Les projets des thèses tels que « reconnaissance automatique de la parole pour des langues peu dotées »[4] et « Sauvegarde du patrimoine oral africain : conception de système de transcription automatique de langues peu dotées pour l’indexation des archives audio »[5] , ont principalement cherché à limiter le temps et les moyens nécessaires à la constitution des corpus d’apprentissage audio et textes, et ont mis l’accent sur la modélisation acoustique en étudiant la portabilité rapide des modèles acoustiques d’une langue vers une autre. Dans la même logique de ces travaux, pour l’auteur de la thèse « Transcription automatique de langues peu dotées »[6], la constitution d’un corpus de textes peut être très difficile pour la très grande majorité de langues peu dotées, qui disposent d’une présence sur Internet très limitée. Pour tenter de pallier les problèmes qui en découlent, à savoir des taux de mots inconnus très élèves et des modèles uploads/Science et Technologie/ assane-adraman-marba.pdf

  • 29
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager