Département d'Informatique
Permanent URI for this community
Browse
Browsing Département d'Informatique by Author "Abderrahmane KEFALI"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
Item Concurrence entre recherche approximative et classification pour la recherche d'images de documents Arabes dégradés(2010) Abderrahmane KEFALID‟importants fonds documentaires existent actuellement dans les bibliothèques, musées et autres institutions à caractères pédagogiques ou sociopolitiques. Les documents historiques des civilisations anciennes et les archives nationales sont l‟exemple typique de telles richesses qui représentent le patrimoine, l‟histoire et la dignité des nations. La conservation de ces documents et leur accès à un grand nombre est constituée aujourd‟hui un besoin incontournable. Une méthode de conservation consiste à les numériser et les stocker sous format image, mais seule, la simple numérisation n‟est pas suffisante pour les rendre accessibles à grand public. En effet, l‟accès à ces collections nécessite des stratégies d‟indexation et de recherche efficaces. Dans la plupart du temps, les index sont crées manuellement. Si cette approche est possible pour un petit nombre de documents, son coût et effort deviennent très élevés pour des larges collections. L‟OCR peut être une alternative pour les documents imprimés ou les documents manuscrits avec un lexique limité. Dés que les documents soient dégradés et avec un lexique plus large, l‟OCR devient inefficace, surtout dans le cas des documents arabes qui présentent d‟autres difficultés relatives essentiellement aux traitements de l‟écriture arabe. Le travail présenté dans ce mémoire s‟intègre dans la démarche de sauvegarde et de valorisation de documents patrimoniaux dont la communauté internationale a pris conscience de l‟intérêt. Bien que nous nous intéressons aux images d‟anciens documents arabes textuels, nous proposons un système permettant la recherche de ces documents par des requêtes textuelles, sans recourir à une reconnaissance du contenu afin d‟éviter le coût élevé et l‟effort ardu de l‟OCR. Afin d‟atteindre les objectifs visés, le système proposé regroupe plusieurs traitements issus principalement du domaine de l‟analyse de documents : binarisation, segmentation, extraction de caractéristiques, codage,...etc. et du domaine de la recherche d‟information, notamment les techniques d‟arbres de suffixes et la recherche approximativeItem Plate-forme pour l’analyse et la restauration des documents anciens(2015) Abderrahmane KEFALID‘importants fonds documentaires existent actuellement dans les bibliothèques, musées et autres institutions à caractères pédagogiques ou sociopolitiques. Les documents historiques des civilisations anciennes et les archives nationales sont l‘exemple typique de telles richesses qui représentent le patrimoine, l‘histoire et la dignité des nations. La conservation de ces documents constitue aujourd‘hui un besoin incontournable. Une méthode de conservation consiste à les numériser et les stocker ainsi sous format image, mais seule, la numérisation n‘est pas suffisante, elle doit être accompagnée d‘outils informatiques permettant leur analyse et reconnaissance. Cependant, le processus de numérisation génère souvent des images de mauvaise qualité, à fond hétérogène, avec effet de transparence, etc. et ce malgré les avancées spectaculaires de la technologie des outils de capture numérique. En fait la plupart de ces déformations au niveau de l'image sont dues aux détériorations subies par les originaux eux mêmes. Tous ces problèmes constituent un nouveau défi aux chercheurs dans le domaine de l'analyse de documents. Que l'on fait de l'identification du contenu (écriture, symboles ou objets, scripteur), l'indexation et la recherche, ou plus simplement la classification, l'organisation et le catalogage, on passe inévitablement par une étape de prétraitement. Cette étape regroupe un ensemble de traitements appliqués sur les images de documents numérisés afin de les préparer aux étapes suivantes dans le processus d‘analyse. Le travail présenté dans ce mémoire s‘intègre dans la démarche de sauvegarde et de valorisation de documents patrimoniaux dont la communauté internationale a pris récemment conscience de l‘intérêt. Nous nous intéressons dans le présent travail aux prétraitements d‘images de documents historiques, et plus précisément à la séparation avant-plan/ arrière plan considérée comme l‘une des opérations de prétraitement les plus importantes. Quatre contributions arrangées selon deux axes sont présentées dans ce mémoire. Les deux premières sont des contributions à l‘évaluation des performances des techniques de binarisation. Ainsi, la première contribution s‘agit d‘une étude comparative d‘un grand nombre d‘algorithmes de binarisation afin de déterminer l‘algorithme le plus performant pour l‘extraction du texte dans les images de documents historiques. La deuxième contribution consiste à la proposition d‘une nouvelle méthodologie d‘évaluation des méthodes de binarisation pour la recherche dans les images de documents arabes dégradés. Dans chacune des deux dernières contributions, une nouvelle méthode de binarisation d‘images de documents dégradés est proposée. La première est une technique basée sur la classification des pixels en noirs et blancs en utilisant un réseau de neurones artificiel de type PMC (Perceptron multi couches). La deuxième s‘agit d‘une technique de binarisation hybride qui procède en deux étapes et qui combine plusieurs méthodes de seuillage dont le but d‘avoir un résultat plus sûr. Deux ensembles d‘images de test ont été utilisés dans les quatre contributions. Le premier est un ensemble public d‘images réelles, et le deuxième est une collection d‘images synthétiques. Différentes expérimentations ont été effectuées et les résultats obtenus sont encourageants.