Translate original post with Google Translate
Le projet ANITA consiste à exploiter le fond de documents anciens de la Médiathèque de l'Agglomération Troyenne. Ce projet comporte plusieurs volets :
| 1 | Contexte | |||
| 2 | Impressions virtuelles | |||
| 3 | Reconnaissance d'impressions issues du même tampon | |||
| 4 | Reconnaissance d'impressions représentant la même scène | |||
| 5 | Duplication de tampons | |||
1. Contexte
Des banques de données numérisées concernant les illustrations de livres et documents anciens sont actuellement en cours de constitution. Elles nécessitent des outils informatiques permettant de les exploiter efficacement. Des problèmes de traitement d'image spécifiques à ces bases de données sont présentés avec les solutions envisagées. Nous présentons ici un ensemble de travaux qui recouvrent des aspects scientifiques, économiques et littéraires dans les domaines du traitement d'images et de l'étude des livres et documents anciens. Ils intéressent donc les chercheurs du CEPLECA (Centre d'étude du Patrimoine Linguistique et Ethnologique de Champagne-Ardenne), ceux du groupe de traitement d'Image du LAM (Laboratoire d'Automatique et de Micro-électronique) mais aussi la Médiathèque de l'Agglomération Troyenne (MAT). Il s'agit de travaux essentiellement pluridisciplinaires. Un programme de numérisation de documents de la MAT (miniatures, livrets de colportage de la Bibliothèque Bleue, microfilm de manuscrits médiévaux) est en court depuis 1998 et a pour but de mieux conserver les originaux et de fournir aux chercheurs des outils pour leurs travaux. Dans cette optique, il est intéressant de chercher à profiter de ce programme pour développer des outils d'aide à la comparaison, à l'archivage, à la recherche et à l'indexation de ces documents.. L'identification des illustrations anciennes est un outil important des recherches dans le domaine de l'Histoire du livre. En effet, les tampons en bois qui ont servi à imprimer ces images ont pu circuler, être refaits ou bien être copiés. On dispose là de tout un matériel permettant d'attribuer des impressions anonymes à leur producteur effectif et d'expliciter des relations entre ateliers typographiques. Les opérations de numérisation des fonds de livres anciens actuellement en cours fournissent des bases de données d'images. Un des aspects du programme de la BMVR de Troyes porte sur la numérisation des livrets de colportage de la Bibliothèque bleue et de l'iconographie troyenne. Les problèmes à résoudre sont multiples. Ils vont de la numérisation de tampons en bois gravés pour constituer des banques de données jusqu'à la mise en oeuvre d'outils logiciels de traitement d'image pour une exploitation efficace de ces banques d'images.
2. Impressions virtuelles
Les bibliothèques et les musées conservent des tampons en bois gravés pour lesquels on ne dispose pas, a priori, de l'image qu'ils reproduisent. En effet, bien souvent, le tampon conservé par une bibliothèque a produit des images sur des documents conservés par d'autres bibliothèques. Le problème est qu'aucune d'entre elles n'a connaissance de l'existence du tampon ou de son image dans les autres. Il faut donc développer un ensemble d'outils matériels et logiciels qui formerait un banc de reconstitution des images issues des tampons en bois gravés. En d'autres termes, il s'agit d'extraire l'image produite par un tampon à partir du bois gravé lui-même. Cela contribuerait à la constitution de banques de données permettant la mise en correspondance automatique des illustrations et des tampons quels que soient leur origine et/ou leur lieu de conservation actuel. La figure suivante représente un de ces tampons en bois.

Les moyens matériels et logiciels envisagés pour constituer ce banc d'acquisition dépendent bien sûr du problème de traitement d'image mais aussi et surtout des contraintes imposées par les bibliothèques. Les conditions de conservation (température, humidité.) et de manipulation sont strictes. Il est, par exemple, exclu de ré-encrer les tampons pour les réutiliser sous des presses typographiques. Les tampons en bois ont été fragilisés au cours du temps (fentes, bois vermoulus, dégradations par l'humidité ou l'impression.) au point de devoir les manipuler avec beaucoup de précautions. De même, on ne peut pas envisager d'enduire le bois d'un quelconque liquide ou de saupoudrer la surface gravée de talc, par exemple, pour faciliter le processus d'extraction de l'image produite par le tampon. La technique d'extraction de l'image produite doit donc rester très respectueuse de l'état du bois.
Des travaux préliminaires ont montrés que l'utilisation d'une image de luminance ne permet pas d'obtenir une information exploitable. La technique finalement retenue est donc de partir d'une image de profondeur représentative de la géométrie du tampon. Un traitement simple (seuillage local) permet alors d'obtenir l'image imprimable. La figure 1 contient un exemple de résultat obtenu. Un paramètre k variable permet de fixer le taux « d'encrage » de l'impression virtuelle. Il reste à valider la méthode à grande échelle et à comparer des impressions réelles aux impressions virtuelles. Pour cette application nous collaborons avec le Le2i (IUT du Creusot) en ce qui concerne l'acquisition et les traitements 3D. L'objectif à terme est de développer une plate forme complète à coût réduit. Il s'agira donc d'utiliser des méthodes de stéréo vision pour développer une acquisition 3D. La résolution de l'acquisition de la plate forme sera réduite. Le but final étant (pour le moment) essentiellement une analyse visuelle, une résolution réduite devrait être suffisante.
3. Reconnaissance d'impressions issues du même tampon
Pour le second problème, il s'agit, à partir de plusieurs tirages, ou reproductions de gravure, d'identifier ceux qui ont été obtenus à partir d'un même tampon, ou qui, au contraire proviennent de tampons copiés. Le problème est complexe dans la mesure où un même tampon ne donne pas toujours des tirages identiques (cf. figure 2) : les différences d'encrage, les phénomènes de retrait liés à l'humidité plus ou moins importante du papier support, les défauts de tirages, les « accidents » subis par le bois au cours de son existence (fentes, trous de vers, retouches.) mènent à des épreuves d'aspect parfois fort différent qu'il est souvent difficile de différencier d'épreuves obtenues à partir de tampon copiés.

Une des difficulté réside dans le fait que les images à comparer peuvent provenir de fonds numérisés différents. Dans ce cas, les conditions d'éclairage et d'acquisition ne sont pas maîtrisable par le logiciel. Il est donc nécessaire de procéder à des pré-traitements. Les opérations nécessaires sont donc :
- binarisation (seuillage),
- recalage en translation, rotation et homothétie,
- comparaison des images recalées.
La comparaison des images recalées fera appel à des calculs de distances adaptées du type distance de Hausdorff. Il s'agit d'une distance qui mesure un écart entre deux courbes. Ces mesures seront suivie d'une étape de classification.
4. Reconnaissance d'impressions représentant la même scène
Le troisième problème identifié consiste à reconnaître dans une banque d'images, les illustrations de la même scène. En effet, les études bibliographiques relatent quelquefois les mêmes évènements. Elles ont été rédigées à diverses époques et par conséquent utilisent des tampons différents ou bien copiés,ou encore un même tampon dégradé. Une même scène peut donc être représentée par de nombreuses images différentes. Par exemple,la figure ci-dessous reprend quatre illustrations de l'histoire des quatre fils Aymon. On y reconnaît bien sûr la même scène,mais les images diffèrent par certains détails. Les tampons ont été produits par des graveurs à travers toute la France sur une période s'étalant de 1613 à 1860. L'objectif est de mettre en évidence un degré de ressemblance entre les scènes. Un expert devra valider les résultats de l'outil développé (A. Robert et M.D. Leclerc).

Le problème consiste donc à reconnaître dans une banque d'images, les illustrations de la même scène. Une même scène peut donc être représentée par de nombreuses images différentes.
La problématique réside dans l'association des images qui possèdent le même contenu sémantique. Il s'agit de construire une représentation sémantique des images et de comparer des représentations pour réaliser l'appariement. Dans ce cadre, nous travaillons sur l'adaptation aux images, des techniques employées en traitement automatique du langage. En particulier,l'adaptation des graphes conceptuels à la reconnaissance de forme est une voie qui est explorée. En effet, les graphes conceptuels constituent un technique "souple" de représentation des connaissances par réseaux qui se rapproche de l'efficacité descriptive du langage naturel. Les graphes conceptuels sont un outil puissant et bien étudié pour le langage écrit. Il existe d'ailleurs des logiciels de manipulation de graphes déjà développés par d'autres équipes.
Nos travaux, qui constituent une recherche innovante et très peu explorée à ce jour, ont donc trois objectifs :
- Développement d'une sémantique graphique. Quels sont les graphes conceptuels qui permettent de représenter au mieux les illustrations étudiées ?
- Construction automatique du graphe conceptuel d'une illustration donnée.
- Comparaison des graphes construits et mesure de similitude des illustrations.
La principale difficulté dans ce genre de problème consiste à construire un codage ou une représentation efficace des images analysées. L'approche que nous cherchons à mettre en oeuvre en appliquant la théorie des graphes conceptuels pour construire une sémantique graphique est originale mais s'inscrit dans une thématique de recherche nationale. La construction et la comparaison de graphes risquant d'être une opération qui explose combinatoirement, nous travaillons sur une approche multirésolution. Il s'agira de construire par itération le graphe d'une image en partant d'une version basse résolution et en ajoutant des détails successif. Dans cette optique nous utilisons une extension non-linéaire de la théorie des ondelettes qui permet d'associer des opérateurs de morphologie mathématique aux analyse multirésolution.
L'intérêt scientifique de ce projet est de contribuer au développement et à la mise au point de méthodes de recherche d'images dans une base de données en se basant sur le contenu. Les méthodes développées seront généralisables et permettront à terme de rechercher dans une banque les images "proches" d'une image de référence. Tout l'intérêt et l'originalité de notre projet tient dans le fait que la mesure de similarité est sémantique. Les méthodes développées pourront être exploitées dans des domaines variés (fonds documentaires anciens, moteurs de recherche d'images pour internet, indexation d'images par le contenu, et plus généralement reconnaissance de formes).
5. Duplication de tampons
Une dernière application consiste à réaliser des duplicata des tampons anciens. Il s'agit de pouvoir produire une copie des tampons pour éviter la perte du tampon en cas de destruction. Cela permettra également l'envoi et/ou la vente de copie à des chercheurs éloigné ou à des visiteurs.

La figure précédente contient un schéma de principe de la duplication. Celle-ci ce décompose en 3 étapes :
- Acquisition 3D : obtention d'un nuage de point brut
- Reconstruction d'une surface en vue d'obtenir un modèle 3D adapté aux contraintes de fabrication (qui sont différentes des contraintes de visualisation)
- Fabrication 3D : plusieurs méthodes sont envisageables (dépôt de surface ou fraisage).
Ce travail est réalisé en collaboration avec le Le2i.