Une plateforme pour la construction d’ontologie en arabe : Extraction des termes et des relations à partir de textes (Application sur le Saint Coran)

No Thumbnail Available
Date
2013
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Le besoin de disposer d’applications capables de traiter intelligemment la surcharge d’information disponible sur le Web, est devenu pressant face à l’explosion vertigineuse du nombre de pages qui ne cesse de s’accroitre d’une façon exponentielle. Ce besoin est encore plus capital dans certaines tâches qui nécessitent la manipulation du contenu et de la sémantique des documents en langage naturel ou dans la capitalisation de l’expertise humaine dans des domaines de spécialités fines. Les ontologies représentent un moyen prometteur pour relever ce challenge. Leur construction manuelle s’est avérée trop onéreuse et très peu réutilisable. La construction semi-automatique commence à donner des résultats encourageants, vu la facilité relative à les mettre au point et à être plus partageables et plus réutilisables. Les ontologies en langue arabe sont quasi inexistantes, pourtant l'arabe est une langue parlée par plus de 300 millions de personnes dans plus de 22 pays. C’est dans cet ordre d’idées que s’inscrit notre travail. Notre objectif, dans cette thèse, est de proposer une approche statistique pour l’extraction de termes simples à partir de corpus arabes (ici le saint Coran), basée sur tf-idf, puis une approche hybride pour l’extraction des termes composés et des relations, d’abord par l’application d’une méthode linguistique basée sur des règles syntaxiques, ensuite un filtrage par une méthode statistique en utilisant une métrique servant à mesurer le degré de cohésion entre deux termes ou un ensemble de termes qui l’information mutuelle, pour définir d’un coté les collocations et d’un autre coté détecter les éventuelles relations qui peuvent exister entre ces termes. Nous proposons par la suite une formalisation des concepts à l’aide de la logique de description pour permettre d’un coté la vérification des inconsistances et l’opérationnalisation de l’ontologie produite et son intégration dans d’autres applications. L’ontologie créée peut alors être utilisée dans l’amélioration de la recherche d’information, l’indexation ou la traduction automatique ou dans toutes autres applications relevant du Web sémantique. La contribution originale de notre travail, réside dans le fait que pour la première fois, l’accent est mis sur les outils d’extraction de termes et de relations à partir de textes arabes et plus spécifiquement le texte coranique. Nous pensons être précurseurs dans la formalisation de concepts arabes à l’aide de la logique de description.
Description
Keywords
Citation