Notes sur la journée thématique GRCE "caractéristiques et similarités dans les images naturelles et les images de documents"

Posted by fmn on juillet 1, 2009 at 4:38 .

    La semaine dernière j'ai présenté mes travaux sur la mesure de similarité entre images lors d'une journée sur le thème : caractéristiques et similarités dans les images naturelles et les images de documents. Le programme de cette journée est disponible sur le site du GRCE. Des liens vers certaines des présentations sont disponibles. Je livre ici mes impressions sur certaines de ces présentations.

    J'ai personnellement tenté de montrer comment la carte de dissimilarité locale peut être adaptée pour réaliser des comparaisons locales et globales d'images (binaires) de traits. Un variation permet d'obtenir une comparaison symétrique ou asymétrique, avec un degré d'asymétrie réglable. J'ai présenté des applications en indexation d'images de tampons anciens, en mesure de l'évolution de tumeurs et en recherche de motifs/reconnaissance de symboles. Une interprétation du degré d'asymétrie serait de le considérer comme un taux de bruit acceptable dans la reconnaissance/localisation du motif/symbole. Des applications à une base de signature et au word-spotting m'ont été suggérées. Alexis Joly m'a parlé de l'Earth Mover Distance comme alternative à la distance de Hausdorff.

    Alexis Joly nous a présenté ses travaux sur la recherche de logos. La méthode consiste en une recherche visuelle locale, basée sur l'extraction de descripteurs (KLT). Le point clef est une expansion de la requête visuelle : le résultat de la première recherche peut être ressoumis comme requête. Une stratégie de sélection automatique de la pertinence est fondée sur le calcul d'un seuil à partir de la distribution des fausses alarmes (méthode a contrario). Le test sur une base d'images d'architecture donne de bons résultats (env. 80% de réussite). Un autre test reposant sur une base d'images de marques qu'il s'agit de retrouver dans un grand nombre de prise de vue (de sport essentiellement) donne des résultats plus faibles (env. 35%). La "mauvaise" performance s'explique par la grande complexité de la tâche, les logos pouvant être faiblement représentés et vraiment distordus. Cette base difficile constitue donc un bon moyen de comparer des algorithmes et sera apparemment bientôt en ligne (BELGALOGOS, si j'ai bien noté).

    Nicholas Journet a fait le point sur la numérisation de documents. Il semble que si de nombreuses techniques de binarisation sont mainteannt disponibles, un grand nombre de questions restent ouvertes. Si je dispose d'un document, quelle est la résolution la plus adaptée pour réaliser une reconnaissance de caractères (OCR), ou pour une visualisation ? Quel algorithme de restauration est le plus adapté à mon objectif ? Cette restauration va-t-elle perturber l'OCR ? Selon Nicholas, un pas serait franchit en évitant de dissocier numérisation et traitement. Il serait ainsi intéressant d'associer des informations à la binarisation, telles que : avoir une idée du bruit présent, connaître les déformations de l'image, l'épaisseur moyenne des traits, leurs inclinaisons ... Bref un ensemble de données qui permettrait de caractériser le contenu de l'image et la numérisation.

    Guillaume Joutel nous a montré comment utiliser les curvelets pour analyser l'écriture. J'ai particulièrement apprécié sa construction d'une signature dans un plan courbure/orientation, sorte d'analogue à une matrice de coocurrence. Cette signature n'intègre malheureusement pas l'information d'échelle. Ce qui se traduit par une plus grande importance des orientations locales que des grandes dérives (ligne d'écriture ascendante ou descendante).

    Vincianne Lacroix utilise une variante du mean-shift, le median-shift, pour extraire la palette utilisée dans une image. Si la tâche semble aisée (en relevant les couleurs utilisées par l'image), la présence de variations, dues à la numérisation par exemple, multiplie les couleurs réellement présentes. Il s'agit donc de réaliser un regroupement (clustering) dans un espace des couleurs bien choisi. Vincianne observe que dans l'espace Lab, les distances ne rendent pas bien compte des distances "percues" entre des couleurs peu saturées (i.e. les blancs et gris faiblement colorés). Par exemple deux blancs légèrement colorés sont perçus comme très différents alors que leur distance dans cette espace est très faible (+/- 7). J'ai précedemment proposé une interprétation de cette incohérence, à savoir que la distance dans l'espace Lab n'est représentative que dans certaines conditions qui ne sont pas vérifiées ici. Mais je ne suis pas un spécialiste de la couleur et Vincianne travaille plus profondemment la question qui est effectivement intéressante.

    Stéphane Bres a proposé un comparatif des méthodes et vocabulaires employés pour les images de traits et les images naturelles. La discussion s'est rapidement focalisée sur la méthode SIFT (Scale Invariant Feature Transform). Cette méthode, très employée actuellement, consiste à extraire des points d'intérêts robustes et permet des appariements résistants à la rotation, la translation et la mise à l'échelle. Les points SIFT sont extraits à partir d'une différence de deux gaussiennes, suivi d'un nettoyage et du calcul de descripteurs. La localisation des points d'intérêt est pleinement effective pour des images naturelles (en niveaux de gris) et ne semble pas convenir complètement pour les images de traits (binaires). Un travail intéressant serait donc d'adapter la méthde SIFT aux images de traits. Une piste à suivre, lancée par un intervenant, serait de travailler sur la première étape et donc de transformer la différence de gaussienne en quelque chose de plus pertinent pour des images de traits.

    Mon carnet de note s'est remplit de plusieurs pages d'idées à creuser. La plupart seront à jeter mais il en restera peut-être une (ou deux) de valables.

    FMN.

    One Comment

    Trackbacks / Pingbacks

    Leave a Reply