Une plateforme pour la construction d’ontologie en arabe : Extraction des termes et des relations à partir de textes (Application sur le Saint Coran)
No Thumbnail Available
Date
2013
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Le besoin de disposer d’applications capables de traiter intelligemment la
surcharge d’information disponible sur le Web, est devenu pressant face à
l’explosion vertigineuse du nombre de pages qui ne cesse de s’accroitre d’une
façon exponentielle. Ce besoin est encore plus capital dans certaines tâches qui
nécessitent la manipulation du contenu et de la sémantique des documents en
langage naturel ou dans la capitalisation de l’expertise humaine dans des
domaines de spécialités fines. Les ontologies représentent un moyen prometteur
pour relever ce challenge. Leur construction manuelle s’est avérée trop onéreuse
et très peu réutilisable. La construction semi-automatique commence à donner des
résultats encourageants, vu la facilité relative à les mettre au point et à être plus
partageables et plus réutilisables. Les ontologies en langue arabe sont quasi
inexistantes, pourtant l'arabe est une langue parlée par plus de 300 millions de
personnes dans plus de 22 pays. C’est dans cet ordre d’idées que s’inscrit notre
travail. Notre objectif, dans cette thèse, est de proposer une approche statistique
pour l’extraction de termes simples à partir de corpus arabes (ici le saint Coran),
basée sur tf-idf, puis une approche hybride pour l’extraction des termes composés
et des relations, d’abord par l’application d’une méthode linguistique basée sur
des règles syntaxiques, ensuite un filtrage par une méthode statistique en utilisant
une métrique servant à mesurer le degré de cohésion entre deux termes ou un
ensemble de termes qui l’information mutuelle, pour définir d’un coté les
collocations et d’un autre coté détecter les éventuelles relations qui peuvent
exister entre ces termes. Nous proposons par la suite une formalisation des
concepts à l’aide de la logique de description pour permettre d’un coté la
vérification des inconsistances et l’opérationnalisation de l’ontologie produite et
son intégration dans d’autres applications. L’ontologie créée peut alors être
utilisée dans l’amélioration de la recherche d’information, l’indexation ou la
traduction automatique ou dans toutes autres applications relevant du Web
sémantique. La contribution originale de notre travail, réside dans le fait que pour
la première fois, l’accent est mis sur les outils d’extraction de termes et de
relations à partir de textes arabes et plus spécifiquement le texte coranique. Nous
pensons être précurseurs dans la formalisation de concepts arabes à l’aide de la
logique de description.