Plate-forme pour l’analyse et la restauration des documents anciens
No Thumbnail Available
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
D‘importants fonds documentaires existent actuellement dans les bibliothèques, musées et
autres institutions à caractères pédagogiques ou sociopolitiques. Les documents historiques
des civilisations anciennes et les archives nationales sont l‘exemple typique de telles richesses
qui représentent le patrimoine, l‘histoire et la dignité des nations. La conservation de ces
documents constitue aujourd‘hui un besoin incontournable. Une méthode de conservation
consiste à les numériser et les stocker ainsi sous format image, mais seule, la numérisation
n‘est pas suffisante, elle doit être accompagnée d‘outils informatiques permettant leur analyse
et reconnaissance. Cependant, le processus de numérisation génère souvent des images de
mauvaise qualité, à fond hétérogène, avec effet de transparence, etc. et ce malgré les avancées
spectaculaires de la technologie des outils de capture numérique. En fait la plupart de ces
déformations au niveau de l'image sont dues aux détériorations subies par les originaux eux mêmes. Tous ces problèmes constituent un nouveau défi aux chercheurs dans le domaine de
l'analyse de documents. Que l'on fait de l'identification du contenu (écriture, symboles ou
objets, scripteur), l'indexation et la recherche, ou plus simplement la classification,
l'organisation et le catalogage, on passe inévitablement par une étape de prétraitement. Cette
étape regroupe un ensemble de traitements appliqués sur les images de documents numérisés
afin de les préparer aux étapes suivantes dans le processus d‘analyse.
Le travail présenté dans ce mémoire s‘intègre dans la démarche de sauvegarde et de
valorisation de documents patrimoniaux dont la communauté internationale a pris récemment
conscience de l‘intérêt. Nous nous intéressons dans le présent travail aux prétraitements
d‘images de documents historiques, et plus précisément à la séparation avant-plan/ arrière plan considérée comme l‘une des opérations de prétraitement les plus importantes. Quatre
contributions arrangées selon deux axes sont présentées dans ce mémoire. Les deux premières
sont des contributions à l‘évaluation des performances des techniques de binarisation. Ainsi,
la première contribution s‘agit d‘une étude comparative d‘un grand nombre d‘algorithmes de
binarisation afin de déterminer l‘algorithme le plus performant pour l‘extraction du texte dans
les images de documents historiques. La deuxième contribution consiste à la proposition
d‘une nouvelle méthodologie d‘évaluation des méthodes de binarisation pour la recherche
dans les images de documents arabes dégradés. Dans chacune des deux dernières
contributions, une nouvelle méthode de binarisation d‘images de documents dégradés est
proposée. La première est une technique basée sur la classification des pixels en noirs et
blancs en utilisant un réseau de neurones artificiel de type PMC (Perceptron multi couches).
La deuxième s‘agit d‘une technique de binarisation hybride qui procède en deux étapes et qui
combine plusieurs méthodes de seuillage dont le but d‘avoir un résultat plus sûr. Deux
ensembles d‘images de test ont été utilisés dans les quatre contributions. Le premier est un
ensemble public d‘images réelles, et le deuxième est une collection d‘images synthétiques.
Différentes expérimentations ont été effectuées et les résultats obtenus sont encourageants.