Combinaison d’Approches pour les Résumés Automatiques de Textes Arabes
No Thumbnail Available
Date
2017
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Vue la croissance exponentielle de la quantité d’information disponible sous format électronique,
l’accès a l’information pertinente dans un temps raisonnable est devenu très difficile voire impossible.
Le Résumé Automatique de Texte semble être une bonne solution qui se trouve à la croisée de deux
disciplines : traitement automatique de la langue et recherche d'information. Le Résumé Automatique
de Textes consiste à produire une représentation courte d'un texte tout en en conservant l'information
pertinente.
De nos jours, la plupart des systèmes de résumé automatique traitent des textes en langues indo européennes (l’anglais, le français, etc.). Le besoin de développer des systèmes de résumé automatique
dédiés pour la langue arabe devient de plus en plus incontournable, ces dernières années, vu
l’augmentation du nombre de documents électroniques rédigés en langue Arabe. Ainsi, c’est dans le
cadre du Traitement Automatique du Langage Naturel (TALN) et plus précisément celui du résumé
automatique de textes arabes que s’inscrit le sujet de cette thèse.
Nous nous sommes fixés comme objectif l’amélioration de la qualité des extraits automatiques de
textes arabes par la proposition d’une nouvelle approche qui prend en compte les relations rhétoriques
reliant les unités de texte.
L’approche proposée combine un traitement purement linguistique basé sur l’analyse de discours arabe
avec un traitement statistique. L’analyse de discours est basée sur la théorie de la structure rhétorique
(RST). À l’inverse des approches classiques basées sur l’analyse de discours, notre approche s’appuie
sur l’exploitation des relations rhétoriques au lieu de la structure rhétorique de texte pour générer un
résumé primaire qui va subir un traitement statistique afin de générer le résumé final de texte.
Afin de pouvoir exploiter les relations rhétoriques, une première étape consiste à en faire une
identification de façon automatique. A cet effet, nous avons proposé une approche supervisée pour la
classification automatique des relations rhétoriques Arabes explicites et implicites. L’implémentation
de ce modèle a nécessité l’élaboration manuelle d’un corpus de discours arabe annoté selon le cadre de
la théorie de la structure rhétorique, vue la non disponibilité d’une telle ressource en langue Arabe.
Afin de montrer la faisabilité de l’approche proposée, nous avons également effectué deux types
d’évaluation : une évaluation automatique utilisant les mesures ROUGE et une évaluation manuelle
établie par des juges qualifiés.