© Robert Pasero & Paul Sabatier, 1991-2009 Robert Pasero & Paul Sabatier Labora

© Robert Pasero & Paul Sabatier, 1991-2009 Robert Pasero & Paul Sabatier Laboratoire d’Informatique Fondamentale, Marseille CNRS - Aix-Marseille Université Traitement automatique des langues 1. Principes L’approche du traitement des langues que nous exposons ici obéit à un certain nombre de principes. Ce chapitre est consacré à leur présentation. Dans notre esprit, les expressions traitement automatique du langage naturel (TALN) et traitement automatique des langues (TAL) sont synonymes. Un langage est naturel (comme le français ou le latin) ou formel (comme la logique des prédicats ou un langage de programmation). Qu'elle soit « morte » ou « vivante », une langue est toujours naturelle. Les différentes langues maternelles constituent nos langages naturels. Nous appellerons objets linguistiques le matériau linguistique sur lequel porte le traitement automatique du langage naturel. Ecrits ou parlés, les mots, les syntagmes, les propositions, les phrases, les textes, les discours, les dialogues, 2 Traitement automatique des langues © Robert Pasero et Paul Sabatier etc., sont de tels objets. Dans la pratique, un système de traitement automatique du langage naturel doit permettre l'utilisation de moyens informatiques pour réaliser différentes tâches, comme par exemple : – corriger dans un texte des fautes d'orthographe, de grammaire ou des maladresses stylistiques (correcteurs associés à des traitements de textes, ...) – analyser un texte pour en extraire des mots-clés en vue de son indexation (documentation automatique, moteurs de recherche, extraction d’informations, veille technologique, ...) – interroger en langage naturel des données structurées (bases de connaissances, bases de données, etc.) (interfaces en langage naturel, ...); – analyser un texte pour en produire une représentation sous la forme de données structurées (création et mise à jour de bases de connaissances, ...) ; – produire un texte (récit, document technique, etc.) à partir de données structurées (génération automatique, ...) ; – conduire des systèmes, des automates, des robots à partir de formulation en langage naturel ; – traduire un texte dans une autre langue (traduction automatique, ...) ; – résumer un texte (résumé automatique, ...) ; – analyser un texte pour y repérer des figures de style (métaphores, métonymies, etc.) (analyse stylistique, ...) ; – assister une personne dans l'apprentissage d'une langue (didactique des langues, ...) ; – assister une personne dans la production de documents (langage contrôlé, ...) ; – assister une personne handicapée dans la formulation d'énoncés (communication assistée, ...) ; – etc. La liste ci-dessus des applications pratiques n'est pas exhaustive. D’une façon plus générale, un système de traitement automatique du langage naturel doit Principes 3 © Robert Pasero et Paul Sabatier permettre l'utilisation de moyens informatiques pour associer de façon automatique des représentations formelles à des objets linguistiques et/ou pour produire de tels objets à partir de représentations formelles. On parle dans le premier cas de systèmes d'analyse ; dans le second cas, de systèmes de synthèse (de production ou encore de génération). Parmi les applications qui associent dans leur déroulement les processus d'analyse et de synthèse, on peut citer en particulier les opérations suivantes : • la correction automatique (ou assistée) de phrases et de textes aux niveaux orthographique, grammatical, stylistique, etc. ; • la production de résumés de textes à partir de la compréhension de textes sources ; • la traduction automatique (ou assistée) de phrases ou de textes en une ou plusieurs langues ; • les interfaces dites intelligentes qui fonctionnent à la fois en analyse (compréhension de phrases, de questions, etc.) et en synthèse (production de messages, de réponses, aide à la formulation, etc.). Les traitements automatiques peuvent avoir aussi pour finalité l'aide à la constitution de bases de connaissances linguistiques : lexiques, dictionnaires monolingues ou multilingues, dictionnaires de fréquence, de concordances, thésaurus, grammaires, etc. Ces bases linguistiques pourront être utilisées comme ressources pour la réalisation des différents types d'applications mentionnés ci-dessus. Lorsque nous disons qu'un système d'analyse doit permettre d'associer de façon automatique des représentations formelles à des objets linguistiques, il nous faut ajouter que ces représentations serviront à d'autres traitements. Parmi toutes les applications du traitement automatique, certaines nécessitent la production de représentations permettant d'évaluer l'objet linguistique dans un monde de référence, réel ou imaginaire, peu importe C'est le cas en particulier des applications dont les objectifs sont l'interrogation en langage naturel de bases de connaissances (comme des bases de données), ou bien la création de ces bases de connaissances à partir de formulation en langage naturel, ou encore, la compréhension de discours et de dialogues. C'est à ce type d'applications que nous nous intéresserons ici. Il est important de préciser que l'évaluation d'un objet linguistique dans un univers de référence fait appel à des connaissances, à des procédures et à des techniques qui ne relèvent plus du 4 Traitement automatique des langues © Robert Pasero et Paul Sabatier domaine du traitement automatique du langage mais d'autres domaines comme par exemple la démonstration automatique. L'analyse automatique du langage naturel s'arrête donc à la production de représentations nécessaires et suffisantes dans leurs formes et leurs contenus pour les traitements ultérieurs auxquels elles sont destinées. 1. Niveaux de formation et de représentation La tradition distingue plusieurs niveaux de bonne formation et de représentation d'une phrase. On peut les répartir en trois ensembles : deux ensembles qui sont propres aux modes de réalisation — oral ou écrit —, et un ensemble commun à ces deux modes. Ainsi, pour l'oral, on distingue en particulier les niveaux prosodique, phonétique et phonologique ; et pour l'écrit, les niveaux rendant compte de l'orthographe et de la ponctuation. L'ensemble dit commun est constitué en particulier par les niveaux lexical, syntaxique, sémantique et pragmatique. C'est ce dernier ensemble qui nous intéresse ici. L'étude des aspects lexicaux et syntaxiques permet de définir le caractère syntaxiquement bien formé des expressions linguistiques, et d'en donner une représentation syntaxique. Dans l'étude des aspects sémantiques, on distingue deux étapes. La première, purement formelle, consiste à étudier hors contexte le sens des expressions linguistiquement bien formées pour leur associer une représentation sémantique correspondant à leur sens littéral. C'est lors de cette étape que l'on rend compte des phénomènes conceptuels pour décider du caractère conceptuellement bien formé des représentations sémantiques, ou en d'autres termes, pour vérifier les présuppositions lexicales. La seconde étape a pour objet de compléter (voire de transformer) le sens littéral d'une expression en tenant compte du contexte, des intentions du locuteur et des attentes de l'interlocuteur. Vaste programme ! Rendre compte au moyen de processus automatiques de tous ces aspects qui relèvent du domaine de la pragmatique reste une tâche difficilement envisageable. Mais la prise en compte du contexte permet néanmoins — et c'est cet aspect qui nous intéresse ici —, de rendre compte de la fonction référentielle du langage naturel. Les Principes 5 © Robert Pasero et Paul Sabatier expressions (mots, phrases, etc.) font référence à des objets. Réels ou imaginaires, ces objets sont les référents de ces expressions, et constituent ce que l'on appelle l'univers du discours, que l'on distingue de “la réalité”. Dans l'étude des aspects sémantiques, la seconde étape intègre en particulier la résolution des références dénotationnelles liées à l'emploi des expressions définies, des anaphores, des déictiques, ou, en d'autres termes, ce qu'on appelle la vérification des présuppositions existentielles. 1.2 Lexique et syntaxe On veut définir un sous-ensemble de phrases du français au moyen d’un lexique et d’une grammaire en vue d’analyser ou de synthétiser automatiquement des phrases de ce sous-ensemble. Il n'est pas question pour nous de couvrir l'ensemble du vocabulaire et de la syntaxe du français. Deux contraintes définissent la couverture de notre grammaire : (1) cette grammaire doit être suffisamment générale pour constituer un noyau utilisable dans différentes applications. Sa définition formelle doit faciliter de futures extensions. Et (2) une représentation sémantique de type logique doit pouvoir être associée à chaque phrase définie par la grammaire. Un lexique définit l'ensemble des mots (et des expressions) au moyen desquels des phrases peuvent être construites. À chaque mot est associé un ensemble d'informations sur la base desquelles les autres niveaux de représentation et de bonne formation pourront être établis. Une grammaire définit au moyen de règles de réécriture les phrases d'un langage en les structurant en chaînes de constituants et de sous-constituants aussi appelées catégories. Parmi les catégories, on distingue les catégories lexicales et les catégories syntaxiques. Les catégories lexicales (comme exemple, article, préposition, nom commun, verbe) constituent les catégories de base. Les catégories syntaxiques (comme par exemple, phrase, groupe nominal, groupe verbal) constituent les catégories supérieures. Elles structurent des suites de catégories de base et/ou de catégories supérieures. 6 Traitement automatique des langues © Robert Pasero et Paul Sabatier Le chapitre 2 est consacré d'une part aux principes et formalismes retenus pour définir un ensemble de phrases lexicalement et syntaxiquement bien formées, et d'autre part à la définition d'un tel ensemble pour un sous-ensemble de phrases du français. 1.3 Sémantique D'une façon générale, on s'intéresse au traitement automatique des expressions linguistiques de type phrase. Une assertion ou une question sont des types de phrase. Une assertion présuppose des connaissances sur un monde et en exprime d'autres. Une question présuppose des connaissances sur uploads/s3/ tal-principes-pasero-sabatier.pdf

  • 33
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager