Génération automatique des résumés Introduction Pour satisfaire leurs besoins e

Génération automatique des résumés Introduction Pour satisfaire leurs besoins en information ou acquérir des connaissances, les humains doivent souvent lire des documents dont les contenus sont complexes et longs à assimiler. L’objectif d’un résumé est de réduire la quantité d’effort nécessaire à l’acquisition des connaissances contenues dans un document. Un résumé peut être défini comme une représentation condensée, intelligible par un humain et non critique du contenu d’un autre document : représentation condensée : un résumé permet de se faire rapidement une idée du contenu du document initial . intelligible par un humain : un résumé permet de diminuer les efforts nécessaires à un humain pour acquérir les connaissances contenues dans un document. L’humain est l’utilisateur direct d’un résumé. De ce fait, un résumé diffère d’une indexation ou d’une représentation servant à l’extraction ou au raisonnement à partir de connaissances . non critique : un résumé ne contient pas de commentaires ou de points de vue sur le document initial. 1) Principales applications L’objectif de toute méthode de GAR (génération automatique de résumé) est de présenter l’essentiel d’un document afin de réduire l’énergie et le temps qu’il faudrait à une personne pour prendre connaissance de son contenu. La plupart des utilisations courantes d’outils de GAR ont pour objet d’aider à rechercher des informations dans des bases documentaires ou à surveiller le contenu de sources d’information. 1.1 Recherche d’informations Aujourd’hui, entreprises, administrations et particuliers peuvent aisément se constituer des bases documentaires privées contenant plusieurs milliers, voire plusieurs millions, de documents. Afin de tirer profit de ces bases, il faut que les recherches aboutissent rapidement. La GAR peut jouer un rôle central pour réduire la durée des recherches car, même si un résumé ne répond pas directement aux besoins du lecteur, son contenu peut lui permettre de se faire une idée de l’intérêt du document et donc d’estimer si ce document vaut la peine d’être lu. La recherche dans les bases documentaires se fait généralement au moyen de deux types d’outils : 1.1.1 Moteurs de recherche Les outils de GAR tendent à être de plus en plus utilisés pour simplifier et accélérer la recherche avec des moteurs de recherche. Sur un moteur de recherche, un utilisateur doit souvent parcourir plusieurs résultats avant de trouver la réponse à son besoin. C’est pourquoi, il est de plus en plus courant que les moteurs de recherche utilisent des outils de GAR afin d’aider les utilisateurs à se faire rapidement une idée de l’intérêt des résultats par rapport à leurs besoins. 1.1.2) Systèmes de question-réponse Les systèmes de question-réponse sont des systèmes de GAR qui synthétisent une réponse unique à partir de tous les documents répondant à la requête de l’utilisateur. Selon les systèmes, les requêtes peuvent être posées avec des mots-clés, en langage naturel (START-MIT) ou encore avec des graphes conceptuels. Les systèmes de question-réponse adaptent leurs réponses en fonction du type de requête. Exemple Si l’on demande au système START du Massachusetts Institute of Technology de donner la définition d’un terme, on obtient une réponse semblable à celle quel’on trouve dans un dictionnaire. En revanche, si on demande au système de donner la capitale des États- Unis, il répond simplement par «Washington ». 1.1.3 Outils spécifiques Des techniques de GAR servent aussi à faciliter la recherche dans des bases documentaires contenant des hypertextes, des images, des vidéos. Sur le Web : les annuaires du Web comme Yahoo! ont pour but de réunir le plus grand nombre possible de sites en fonction de leur thématique. les annuaires offrent généralement une petite description du contenu du site. Des méthodes de GAR ont été spécialement développées pour construire automatiquement des descriptions de sites afin de faciliter le travail de ceux qui mettent à jour les annuaires. Dans des bases d’images : un grand nombre de particuliers possèdent aujourd’hui des albums photos numériques. Ils perdent souvent beaucoup de temps à rechercher des images. Des méthodes de GAR de collections de photographies peuvent les aider. Elles ont pour but de construire un hypertexte d’une galerie photo de la collection dans laquelle l’utilisateur peut naviguer. Dans des bases de vidéos : grâce à un résumé, un spectateur a la possibilité de se faire une idée des principales informations contenues dans une vidéo sans avoir à la regarder dans sa totalité. Les résumés de vidéos peuvent servir à générer automatiquement des extraits de films personnalisés en fonction des goûts de l’utilisateur. Ils peuvent également servir à résumer des enregistrements de caméras de surveillance. 1.2 Veille Les entreprises utilisent de plus en plus d’outils destinés à surveiller les informations provenant de différentes sources. Par exemple, on peut trouver sur le Web, et particulièrement sur la blogosphère, des pages commentant des produits ou des pages tenant des propos politiques. Pour détecter ce qui se dit sur ces pages, on doit trier un grand nombre d’informations puis synthétiser celles qui sont essentielles. 1.3) Autres utilisations Générer automatiquement une synthèse de l’essentiel d’un document afin de minimiser le temps d’acquisition de cette information par une personne peut servir dans d’autres applications. 1.3.1) Généralisation En géographie, la GAR est désignée par un autre nom, la généralisation : « La généralisation désigne la sélection et la représentation de détails en fonction de l’échelle de la carte et des objectifs de l’utilisateur » 1.3.2) Adaptation d’interfaces La GAR permet d’adapter automatiquement les interfaces de sites Web en fonction de contraintes d’affichage. À l’origine, les sites Web étaient conçus pour être visualisés sur des écrans de diagonale comprise entre 14 à 19 pouces et avec une résolution typique de 800 *600 ou 1 024*768. Aujourd’hui, de plus en plus de terminaux mobiles de taille d’écran très petite (aux alentours de 4 pouces) ont accès à l’Internet. 2) Processus: Le processus de production automatique de résumé peut être décomposé en quatre étapes visant à résoudre différents problèmes Étape 1 : segmentation Initialement, le contenu de la ou des cibles est décomposé en petites unités d’informations appelées segments. Par exemple, il est courant que les textes soient segmentés en phrases. Une vidéo peut être segmentée en images ou bien en courtes sous-séquences. La segmentation d’une image peut conduire à extraire des segments de bas niveau (segments de droite, polygones…) ou de plus haut niveau (objets, personnes…). Étape 2 : sélection Une fois la segmentation réalisée, les segments les plus importants sont sélectionnés en fonction des besoins spécifiés par l’utilisateur. Dans le cas d’un texte, ces besoins peuvent être exprimés au moyen de critères statistiques ou linguistiques. Selon les besoins exprimés, les segments sélectionnés serviront de base à la conception d’un résumé de synthèse ou d’un résumé sélectif. Etape 3 : transformation La troisième étape du processus de GAR consiste à condenser les informations exprimées dans les segments sélectionnés par des transformations. Une transformation peut modifier le contenu d’un segment (intrasegment) ou de plusieurs segments (intersegment). Les trois principaux opérateurs de transformation sont la suppression, la construction et la généralisation. A l’issue de cette étape, les segments sélectionnés ont été transformés en de nouveaux segments qui pourront éventuellement avoir été mis dans un format différent de celui de départ, ce qui pourrait conduire à construire un résumé textuel à partir d’une image par exemple. Etape 4 : assemblage Cette dernière étape vise à générer le résumé final à partir des segments transformés. Le résumé est formé par assemblage des segments. Diverses règles peuvent être utilisées pour améliorer la qualité du résumé. Par exemple, on peut supprimer des segments dont le contenu est redondant, ou on peut chercher aussi à structurer les segments pour qu’ils présentent un discours cohérent. Remarque sur la différence entre abstrait et extrait Dans la littérature existante, la distinction entre abstrait et extrait n’est pas clairement établie. Généralement, on considère qu’un abstrait possède quelque chose de plus par rapport au document initial comme par exemple un mot ou une tournure de phrase. Mais un extrait n’a-t-il pas précisément aussi cette caractéristique ? Après tout, un extrait possède une structure logique (rhétorique) différente de celle du document initial. On obtient une définition plus nette d’un abstrait en considérant la définition suivante : un abstrait est formé d’au moins un segment initial ayant subi une Transformation. La transformation et l’adaptation de segments nécessitent de comprendre les informations véhiculées dans les segments. 3) Techniques de génération de résumé pour le texte La plupart des méthodes actuelles de GAR produisent des extraits car ceux-ci sont faciles à construire et à adapter. Le développement de méthodes de génération d’abstrait est bridé par la complexité des problèmes de la compréhension automatique du discours ou de génération de langage naturel. 3.1) Génération d’extraits Les méthodes de génération d’extrait construisent des résumés par assemblage d’éléments sélectionnés. Segmentation En général, on segmente les textes en phrases ou en passages (un passage est un groupe constitué d’au minimum deux phrases). L’intérêt de cela est d’assurer un niveau minimal de cohésion au résumé ; les phrases sont au moins correctes grammaticalement. Ainsi, un texte peut être automatiquement découpé en cherchant les positions dans le texte des symboles « . ». uploads/s1/ generation-automatique-de-resumes.pdf

  • 104
  • 0
  • 0
Afficher les détails des licences
Licence et utilisation
Gratuit pour un usage personnel Attribution requise
Partager
  • Détails
  • Publié le Dec 05, 2021
  • Catégorie Administration
  • Langue French
  • Taille du fichier 0.5837MB