Alignement sémantique des ontologies de grande Taille
No Thumbnail Available
Date
2013
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Les ontologies sont des nouvelles formes d'organisation et contrôle intelligent de
l'information. Elles présentent un savoir préalable requis pour un traitement systématique de
l'information à des fins de navigation, de rappel, de précision, etc. Toutefois, les ontologies
sont confrontées de façon continue aux problèmes d'hétérogénéité à savoir : l'hétérogénéité
syntaxique, l'hétérogénéité terminologique, l'hétérogénéité conceptuelle et l'hétérogénéité
sémiotique. Dans ce cadre, l'alignement s'impose comme une solution, afin de permettre
l’interopérabilité et le partage des données.
Etant données deux ontologies, l’alignement (appariement ou mise en correspondance)
consiste en la production d’un ensemble de correspondances entre les entités. Ces entités
peuvent être des concepts, des propriétés ou encore des instances. Cependant la génération
automatique des correspondances entre deux ontologies est d’une extrême difficulté qui est
due aux divergences (conceptuelle, habitudes, etc.) entre communautés différentes de
développement des ontologies. De plus, la problématique d’alignement se pose avec acuité
lorsque le nombre et le volume des schémas de données sont importants. En effet, dans les
domaines d’applications réelles où les ontologies sont volumineuses et complexes, les
exigences de l’exécution du temps et de l’espace mémoire sont les deux facteurs significatifs
qui influencent directement la performance d’un algorithme d’alignement.
Cette thèse apporte des réponses au problème de l’alignement et de l'hétérogénéité des
sources de données. Nous présentons notre système d’alignement XMap++, qui est capable
d'élaborer un mapping sémantique en tenant compte du contexte des sources à aligner. Ainsi,
nous proposons des stratégies de matching qui peuvent être combinées de façon dynamique
en prenant en considération les spécificités sémantiques des concepts. En particulier, le
module aligneur supporte quatre modes de combinaison dynamique (e.g. moyenne,
pondération dynamique, pondération avec les RNA, fonction sigmoïde) qui leur confère la
capacité de choisir parmi les mesures de similarité des entités (e.g., terminologique,
linguistique et structurelle) le degré de confiance approprié a chaque matcher pour aligner une
entité donnée, considérant des caractéristiques sémantiques spécifiques (e.g. type de données,
nature de contenu, etc.).
Nous proposons également le principe du vieil adage « diviser pour mieux régner » afin de
nous permettre de profiter des différents processeurs disponibles sur la machine pour mener à
bien nos calculs lors de l’alignement de ces ontologies de grande taille.