Classification non supervisée textuelle descriptive en langue arabe
No Thumbnail Available
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Les problèmes causés par l’augmentation constante du volume de
l’information textuelle dans la recherche et l’organisation de cette
information n’est pas à démontrer. L’un des axes qui tentent de résoudre ces
problèmes est la classification non supervisée textuelle (classification
thématique pour certains). Cette classification, qui consiste à générer une
partition de clusters homogènes, n’est pas suffisante pour subvenir au besoin
de l’utilisateur tant pour l’organisation que dans l’exploration et la
recherche de l’information voulue. La description des clusters générés reste
un chemin incontournable pour la compréhension de ces derniers. La
majorité des techniques de description présentes dans la littérature
s’articulent sur le nombre d’apparitions des mots pour décrire les résultats
de la classification non supervisée par les mots clés ou par les phrases, en
plus, ces techniques sont généralement destinées à la description de la
classification des textes courts (snippets ou fichiers entêtes) retournés par
les moteurs de recherche sur le web.
La présente étude présente une nouvelle approche intitulée
LDK-Means (Latent Descriptive K-Means) qui combine deux techniques
très célèbres en recherche de l’information, l’une pour la classification non
supervisée et l’autre pour la description des résultats obtenus par cette
classification.
La description (labellisation) consiste à faire intervenir, en plus du
nombre d’apparitions des mots dans le texte (approche statistique), la
relation qui décrit l’apparition conjointe de ces mots dans ce texte. L’idée
derrière cette approche est l’exploitation de l’une des méthodes probabilistes
thématiques la plus connue à savoir LDA (Latent Dirichlet Allocation).
L’approche présentée a été menée sur des collections en langue arabe,
une langue connue pour par ses caractéristiques morphosyntaxiques très
particulières qui nécessite plusieurs opérations de prétraitements.