Identification d’opinions dans les journaux arabes
No Thumbnail Available
Date
2009
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Résumé
Après une demande croissante en matière d’analyse de textes véhiculant des critiques,
des opinions ou des jugements, le traitement automatique des langues a donné naissance à une
nouvelle discipline appelée fouille de données d’opinions (opinion-mining). Cette discipline
est un résultat de l’intersection de trois disciplines : le traitement automatique des langues, la
linguistique et la philosophie. Elle n’est pas intéressée par l’étude des thèmes d’un document
mais par les opinions exprimées dans les textes.
Dans ce présent mémoire, nous avons proposé une approche d’identification
d’opinions basée sur une analyse symbolique des textes, qu’on testé sur un ensemble de textes
journalistiques de la langue arabe. Cette dernière, malgré ses particularités syntaxiques,
morphologiques et sémantiques, présente l’axe sur lequel s’articule notre travail. Nous avons
inspiré notre approche, après une étude comparative de trois approches utilisées en
classification de sentiments : l’approche symbolique basée sur l’analyse syntaxique des textes,
l’approche statistique basée les techniques d’apprentissage automatique, et la troisième
approche, est une hybridation des deux premières. Son fonctionnement est basé sur
l’extraction des expressions subjectives qui reflètent des jugements personnels sur des sujets
divers.
Notre approche, se base sur un modèle de représentation d’opinion, qui considère
qu’une opinion est conformée de quatre éléments : prédicat, source, sujet et contenu.
L’identification de chaque élément nécessite un ensemble règles linguistiques bien définies.
Deux éléments appelés polarité et intensité, ont été ajoutés à ce modèle pour calculer
l’orientation sémantique globale de l’opinion en fonction de ces constituants.
Les opinions identifiées sont ensuite classifiées selon leurs orientations sémantiques et
leurs intensités, en cinq catégories : positive forte, positive faible, négative forte, négative
faible, et neutre.
Notons, que notre travail a été l’un des 26 articles acceptés parmi les 62 articles
soumis à la conférence IC2009.