Concurrence entre recherche approximative et classification pour la recherche d'images de documents Arabes dégradés

No Thumbnail Available
Date
2010
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
D‟importants fonds documentaires existent actuellement dans les bibliothèques, musées et autres institutions à caractères pédagogiques ou sociopolitiques. Les documents historiques des civilisations anciennes et les archives nationales sont l‟exemple typique de telles richesses qui représentent le patrimoine, l‟histoire et la dignité des nations. La conservation de ces documents et leur accès à un grand nombre est constituée aujourd‟hui un besoin incontournable. Une méthode de conservation consiste à les numériser et les stocker sous format image, mais seule, la simple numérisation n‟est pas suffisante pour les rendre accessibles à grand public. En effet, l‟accès à ces collections nécessite des stratégies d‟indexation et de recherche efficaces. Dans la plupart du temps, les index sont crées manuellement. Si cette approche est possible pour un petit nombre de documents, son coût et effort deviennent très élevés pour des larges collections. L‟OCR peut être une alternative pour les documents imprimés ou les documents manuscrits avec un lexique limité. Dés que les documents soient dégradés et avec un lexique plus large, l‟OCR devient inefficace, surtout dans le cas des documents arabes qui présentent d‟autres difficultés relatives essentiellement aux traitements de l‟écriture arabe. Le travail présenté dans ce mémoire s‟intègre dans la démarche de sauvegarde et de valorisation de documents patrimoniaux dont la communauté internationale a pris conscience de l‟intérêt. Bien que nous nous intéressons aux images d‟anciens documents arabes textuels, nous proposons un système permettant la recherche de ces documents par des requêtes textuelles, sans recourir à une reconnaissance du contenu afin d‟éviter le coût élevé et l‟effort ardu de l‟OCR. Afin d‟atteindre les objectifs visés, le système proposé regroupe plusieurs traitements issus principalement du domaine de l‟analyse de documents : binarisation, segmentation, extraction de caractéristiques, codage,...etc. et du domaine de la recherche d‟information, notamment les techniques d‟arbres de suffixes et la recherche approximative
Description
Keywords
Citation