Concurrence entre recherche approximative et classification pour la recherche d'images de documents Arabes dégradés
No Thumbnail Available
Date
2010
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
D‟importants fonds documentaires existent actuellement dans les bibliothèques, musées et
autres institutions à caractères pédagogiques ou sociopolitiques. Les documents historiques
des civilisations anciennes et les archives nationales sont l‟exemple typique de telles richesses
qui représentent le patrimoine, l‟histoire et la dignité des nations. La conservation de ces
documents et leur accès à un grand nombre est constituée aujourd‟hui un besoin
incontournable. Une méthode de conservation consiste à les numériser et les stocker sous
format image, mais seule, la simple numérisation n‟est pas suffisante pour les rendre
accessibles à grand public. En effet, l‟accès à ces collections nécessite des stratégies
d‟indexation et de recherche efficaces. Dans la plupart du temps, les index sont crées
manuellement. Si cette approche est possible pour un petit nombre de documents, son coût et
effort deviennent très élevés pour des larges collections. L‟OCR peut être une alternative pour
les documents imprimés ou les documents manuscrits avec un lexique limité. Dés que les
documents soient dégradés et avec un lexique plus large, l‟OCR devient inefficace, surtout
dans le cas des documents arabes qui présentent d‟autres difficultés relatives essentiellement
aux traitements de l‟écriture arabe.
Le travail présenté dans ce mémoire s‟intègre dans la démarche de sauvegarde et de
valorisation de documents patrimoniaux dont la communauté internationale a pris conscience
de l‟intérêt. Bien que nous nous intéressons aux images d‟anciens documents arabes textuels,
nous proposons un système permettant la recherche de ces documents par des requêtes
textuelles, sans recourir à une reconnaissance du contenu afin d‟éviter le coût élevé et l‟effort
ardu de l‟OCR.
Afin d‟atteindre les objectifs visés, le système proposé regroupe plusieurs traitements issus
principalement du domaine de l‟analyse de documents : binarisation, segmentation, extraction
de caractéristiques, codage,...etc. et du domaine de la recherche d‟information, notamment les
techniques d‟arbres de suffixes et la recherche approximative