Combinaison d’Approches pour les Résumés Automatiques de Textes Arabes

No Thumbnail Available
Date
2017
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Vue la croissance exponentielle de la quantité d’information disponible sous format électronique, l’accès a l’information pertinente dans un temps raisonnable est devenu très difficile voire impossible. Le Résumé Automatique de Texte semble être une bonne solution qui se trouve à la croisée de deux disciplines : traitement automatique de la langue et recherche d'information. Le Résumé Automatique de Textes consiste à produire une représentation courte d'un texte tout en en conservant l'information pertinente. De nos jours, la plupart des systèmes de résumé automatique traitent des textes en langues indo européennes (l’anglais, le français, etc.). Le besoin de développer des systèmes de résumé automatique dédiés pour la langue arabe devient de plus en plus incontournable, ces dernières années, vu l’augmentation du nombre de documents électroniques rédigés en langue Arabe. Ainsi, c’est dans le cadre du Traitement Automatique du Langage Naturel (TALN) et plus précisément celui du résumé automatique de textes arabes que s’inscrit le sujet de cette thèse. Nous nous sommes fixés comme objectif l’amélioration de la qualité des extraits automatiques de textes arabes par la proposition d’une nouvelle approche qui prend en compte les relations rhétoriques reliant les unités de texte. L’approche proposée combine un traitement purement linguistique basé sur l’analyse de discours arabe avec un traitement statistique. L’analyse de discours est basée sur la théorie de la structure rhétorique (RST). À l’inverse des approches classiques basées sur l’analyse de discours, notre approche s’appuie sur l’exploitation des relations rhétoriques au lieu de la structure rhétorique de texte pour générer un résumé primaire qui va subir un traitement statistique afin de générer le résumé final de texte. Afin de pouvoir exploiter les relations rhétoriques, une première étape consiste à en faire une identification de façon automatique. A cet effet, nous avons proposé une approche supervisée pour la classification automatique des relations rhétoriques Arabes explicites et implicites. L’implémentation de ce modèle a nécessité l’élaboration manuelle d’un corpus de discours arabe annoté selon le cadre de la théorie de la structure rhétorique, vue la non disponibilité d’une telle ressource en langue Arabe. Afin de montrer la faisabilité de l’approche proposée, nous avons également effectué deux types d’évaluation : une évaluation automatique utilisant les mesures ROUGE et une évaluation manuelle établie par des juges qualifiés.
Description
Keywords
Citation