Subscribe RSS

Posts Tagged ‘reconnaissance’

Une perception grossière est suffisante pour attribuer une catégorie générale

octobre 15th, 2009 by fmn | 6 Comments | Filed in Recherche

    Je m’étais rendu compte que seule la perception grossière et erronée place tout dans l’objet, quand tout est dans l’esprit – Marcel Proust.

    Lorsque nous percevons les objets qui nous entourent, nous attribuons des catégories. Les psychologues cognitivistes étudient depuis longtemps les processus activés lors de cette catégorisation. Ainsi trois niveaux sont distingués :

    • Le niveau de base (basic level) est le niveau le plus abstrait où les objets considérés partagent encore un grand nombre de caractéristiques. Les catégories de ce niveau sont les catégories les plus facile à apprendre pour les enfants. Pour nommer les objets, les adultes utilisent plus spontanément des mots des ces catégories.
    • Les catégories fines spécifiques (subordinate level) correspondent à des catégories plus spécialisées.
    • Les catégories générales (superordinate level) contiennent des abstractions plus fortes.

    Par exemple la catégorie “chien” pourrait se situer au niveau de base. Dans ce cas, “animal” serait une catégorie générale et “sharpeï” serait une catégorie fine spécifique. Les études montrent que le niveau des catégories peut varier avec les individus, selon leur expertise du domaine.

    (Lire la suite…)

    Tags: , , , , ,

    Petite revue des transformations en distance pour des images en niveaux de gris

    septembre 29th, 2009 by fmn | 1 Comment | Filed in Recherche

      La transformée en distance (distance transform) d’une image binaire, parfois appelée fonction distance, permet de connaître la distance entre un pixel donné et le pixel le plus proche de l’image. De nombreuses méthodes exploitent cette transformée pour accéler des calculs. Par exemple dans la localisation de motifs dans un image par Chamfer Matching 1 ou pour l’obtention d’une distance de Hausdorff entre deux images 2, les calculs peuvent être considérablement accélérés. En effet le calcul de la transformée peut-être réalisé très rapidement, avec une très bonne approximation, en propageant un petit masque sur deux parcours de l’image. La carte de dissimilarité, que nous employons pour comparer des images, peut également se formuler avec des transformées en distances (voir le billet Reconnaissance de symboles binaires par mesure de dissimilarités locales, par exemple).

      L’inconvénient est que la transformée en distance est définie pour des images binaires. Obtenir une définition pour des images en niveaux de gris peut permettre une extension de nombre de méthodes aux images en niveaux de gris également. Ce billet est un petit état de l’art des méthodes qui existent pour obtenir une transformée en distance pour des images en niveau de gris.


      Définition pour des images binaires

      La transformée en distance (TeD) est définie par :

      Étant donnée une image, sa transformée en distance est une image où la valeur de chaque pixel correspond à la distance du pixel du fond le plus proche.

      On peut définir une variante où le mot “fond” (background) est remplacé par “forme” (foreground). Pour être plus précis, il conviendrait donc de parler soit de transformée en distance par rapport au fond, soit de transformée en distance par rapport à la forme. Certaines confusions que l’on trouve parfois dans les articles seraient ainsi évitées.

      Dans une image binaire, la distance entre deux pixels est donnée par la distance euclidienne entre les deux points. La distinction fond/forme est complète, le fond étant par exemple représenté par les pixels de valeur 0, la forme par les valeurs 1.

      Pour étendre la définition à des images en niveaux de gris, deux approches sont possibles :

      • adapter la notion de distance entre deux pixels, ou
      • adapter la notion de “fond”.


      Généralisation de la distance

      Une étude de Céline Fouard 3 résume la situation : la définition reste la même, change la définition de la distance. Si l’on considère deux pixels, il est nécessaire de prendre en compte les niveaux de gris des pixels du chemin qui relie ces deux pixels. Si ce chemin est noté \pi(t), deux possibilités sont retenues :

      • prendre la somme des pixels le long de ce chemin :
         D = \int_{0}^{1}\| \pi(t) \|  \mathrm{d}t ,
      • ou prendre la longeur du chemin le long de la “surface” définie par l’image:
         D = \int_{0}^{1}\| \frac{\mathrm{d}\pi(t)}{\mathrm{d}t}(t) \| \mathrm{d}t .

      Gray Weighted Distance Transform (GWDT)

      La distance choisie est définie par la somme pondérée des niveaux de gris le long du chemin discret reliant deux points. Cette distance revient à estimer la surface située sous la courbe représentant les niveaux de gris en fonction du chemin parcouru. La distance est donc l’intégrale des niveaux de gris entre les deux pixels. In fine, le coût de déplacement entre deux pixels adjacents est donc le suivant :

       w_{GWDi} = \frac{1}{2} (I(t_i) + I(t_{i+1})) \times \| t_i - t_{i+1} \|

       \| \| t_i - t_{i+1} \| \| est la distance spatiale entre deux pixels et I(t_i) est le niveau de gris de l’image pour le pixel t_i.

      La méthode revient parcourir un chemin contenant les plus faibles niveaux de gris possibles.

      Weighted Distance Transform on Curved Space (WDTOCS)

      Dans ce cas, le chemin entre deux points est défini comme un chemin en 3 dimensions, contraint de rester sur la surface définie par les niveaux de gris de l’image. La distance est définie comme la longueur du plus petit chemin géodésique entre ces deux points. Le coût de déplacement entre deux pixels adjacents est alors :

      w_{WDOCSi} = \sqrt{(I(t_i) + I(t_{i+1}))^2 + \| t_i - t_{i+1} \|^2}.

      La méthode revient à parcourir un chemin présentant le moins de variation de niveaux de gris possible.

      Critique des deux méthodes

      Le principal inconvénient l’approche WDTOCS est l’inhomogénéité de l’équation. Si les niveaux de gris ne représentent pas physiquement une distance, par exemple une intensité lumineuse comme c’est le plus souvent le cas, alors la formule impose de réaliser la somme d’intensité et de “vraies” distance. Pour pallier ce problème, les niveaux de gris sont coeffficientés, camouflant ainsi cette inconsistance. Le coefficient permet également de résoudre un problème de dynamique entre les axes x, y et les intensités.

      L’approche GWDT présente quelques lacunes quant à son utilisation en tant que distance : c’est une distance par rapport à la forme, mais pas par rapport au fond. De plus certaines informations situées à l’interface fond/forme ne sont pas correctement prises en compte (voir Évaluation de la qualité d’images compressées avec des dissimilarités locales et globales).

      Ces deux approches présentent l’intérêt d’avoir une interprétation claire. Par contre elles ne sont applicable, que lorsque l’image possède une forme exprimée sur un fond. Typiquement une image représentant un objet sur un fond uniforme. Ainsi leur utilisation est rarement possible sur une image naturelle (une forêt), où la distinction fond/forme n’existe généralement pas.


      Généralisation de la notion de fond : Continuous Distance Transform (CDT)

      Dans cette approche par Joaquim Alrandis 4, la distance représentée reste la distance euclidienne calculée entre les coordonnées x, y des deux pixes considérés. Par contre l’approche est une tentative de généraliser les notions de “pixel blanc” et “trouver le pixel blanc le plus proche”.

      • La notion “pixel blanc” devient “la plus grande valeur brillante” (maximum bright value).
      • La notion “trouver le pixel blanc le plus proche” est transformée en “accumuler les valeurs brillantes dans le voisinage, jusqu’a un maximum” (accumulate a maximum bright value on the neighborhood).

      Grosso-modo, la méthode revient à faire croître une fenêtre, plus exactement une bordure, autour du pixel considéré. Une somme pondérée des valeurs située sur cette bordure est effectuée et accumulée. Le rayon de la bordure croît ainsi jusqu’à  ce que la valeur accumulée est supérieur ou égale au niveau de gris maximum de l’image. Le rayon de la bordure est alors retenu comme distance.

      L’approche est interressante dans cette généralisation des notions. Cependant, cette définition semble être une réponse un peu trop ad-hoc au problème. Ainsi l’interprétation des distances renvoyée est plus délicate que dans les deux autres méthodes.


      Ce qu’il faudrait (en guise de conclusion)

      La transformée en distance idéale présenterait les qualités suivantes :

      • une distance bien définie et interprétable facilement. Cette distance n’est pas nécessairement la distance euclidienne, elle peut être la distance généralisée calculée sur un chemin,
      • applicable sur des images ne présentant pas nécessairement de fond/forme,
      • tendre vers la TeD binaire lorsque l’image tends vers une image binaire.

      FMN.

      ps: ajout de dernière minute. En contrôlant le référencement de cette page, je suis tombé sur une autre approche : “Distance transforms for real-valued functions” par Ilya Molchanov et al. (http://dx.doi.org/10.1016/S0022-247X(02)00719-9). Dès que j’ai lu l’article en détail, j’en donne mon analyse.


      Références

      1.

      • [1988,article] bibtex
        G. Borgefors, "Hierarchical Chamfer Matching: A Parametric Edge Matching Algorithm," IEEE Trans. Pattern Anal. Mach. Intell., vol. 10, iss. 6, pp. 849-865, 1988.
        @article{Borgefors1988,
          author = {Gunilla Borgefors},
          title = {Hierarchical Chamfer Matching: A Parametric Edge Matching Algorithm},
          journal = {IEEE Trans. Pattern Anal. Mach. Intell.},
          volume = {10},
          number = {6},
          year = {1988},
          pages = {849-865},
          ee = {http://computer.org/tpami/tp1988/i0849abs.htm},
          bibsource = {DBLP, http://dblp.uni-trier.de}
        }

      2.

      • [2009,book] bibtex
        R. Brunelli, Template Matching Techniques in Computer Vision: Theory and Practice, Wiley, 2009.
        @book{Brunelli2009,
          author = "Brunelli, R.", TITLE = "Template Matching Techniques in Computer Vision: Theory and Practice", PUBLISHER = "Wiley", YEAR = "2009", MONTH = "May", BIBSOURCE = "http://www.visionbib.com/bibliography/match-pl489.html#TT41877"}

      3.

      • [2006,inproceedings] bibtex
        C. Fouard and M. Gedda, "An Objective Comparison between Gray Weighted Distance Transforms and Weighted Distance Transforms On Curved Spaces," in Proc. of DGCI’06, 2006.
        @InProceedings{Fouard2006,
          author = {Fouard, C\'eline and Gedda, Magnus},
          title = {An Objective Comparison between Gray Weighted Distance Transforms and Weighted Distance Transforms On Curved Spaces },
          booktitle = {Proc. of DGCI'06},
          year = {2006},
          }

      4.

      • [2000,inproceedings] bibtex
        J. Arlandis, J. C. Pérez-Cortes, and R. Llobet, "Handwritten Character Recognition using the Continuous Distance Transformation," in ICPR, 2000, pp. 1940-1943.
        @inproceedings{Arlandis2000,
          author = {Joaquim Arlandis and Juan Carlos P{\'e}rez-Cortes and Rafael Llobet},
          title = {Handwritten Character Recognition using the Continuous Distance Transformation},
          booktitle = {ICPR},
          year = {2000},
          pages = {1940-1943},
          ee = {http://csdl.computer.org/comp/proceedings/icpr/2000/0750/01/07501940abs.htm},
          bibsource = {DBLP, http://dblp.uni-trier.de}
        }

      Tags: , , , , , , ,

      Évaluation de la qualité d’images compressées avec des dissimilarités locales et globales

      septembre 17th, 2009 by fmn | 1 Comment | Filed in Recherche

        Le contenu de ce billet est issu d’une communication au colloque GRETSI en 2009 :

        • [2009,inproceedings] bibtex Go to document
          F. Morain-Nicolier, J. Landré, and S. Ruan, "Dissimilarités locales et globales pour évaluer la qualité d’images médicales compressées avec pertes," in XXIIe Colloque GRETSI, Dijon, 2009.
          @INPROCEEDINGS {Nicolier2009b,
            author = {Morain-Nicolier, F. and Landré, J. and Ruan, S.},
            title = {Dissimilarit{\'e}s locales et globales pour {\'e}valuer la qualit{\'e} d'images m{\'e}dicales compress{\'e}es avec pertes},
            booktitle = {XXIIe Colloque GRETSI},
            address = {Dijon},
            month = {sep},
            year = {2009},
            url = {http://pixel-shaker.fr/wp-content/uploads/publications/Nicolier2009b.pdf}
          }


        Mise en situation

        Lorsque l’on compare deux images, il est parfois essentiel de pouvoir localiser les zones où les deux images se ressemblent et celles où elles diffèrent. Cependant, la plupart des méthodes fournissant une mesure de similarité (au sens le plus général possible) produisent un nombre unique. Ce scalaire est censé renseigner sur la qualité de la ressemblance entre les deux images considérées. Cette mesure, globale, est incapable de rendre compte finement des écarts :

        Exemple de deux images localement différentes
        Exemple de deux images localement différentes (images libres de droit obtenues sur Wikimedia Commons)

        Seule une mesure locale, peut permettre d’extraire l’information suivante : les deux images sont identiques par rapport à leurs moitiés supérieures et différentes par rapport à leurs moitiés inférieures.

        En dehors de ce cas un peu artificiel, de nombreuses applications nécessitent de localiser les similarités. Par exemple, dans le domaine de l’imagerie médicale, le volume de données généré en une année peut se mesurer en tera-octets1. L’utilisation de méthodes de compression est donc indispensable. Pour obtenir des taux de compression véritablement utiles, les compressions avec pertes sont actuellement à l’étude. Cependant, des problèmes peuvent se poser en termes de diagnostic. En effet, le principal écueil avec ce type de codage (avec pertes) est la potentielle disparition ou application de détails important. Quelle peut-être l’utilité de compresser des images, si leur archivage empêche toute analyse ultérieure?

        Wang et al. 2 ont récemment proposé d’évaluer la qualité d’une image en mesurant un indice global de similarité structurelle (structural similarity indexSSIM). Cet indice possède de nombreuse propriétés intéressantes, et est donc de plus en plus largement employé. Mais il reste une mesure globale. Dans leur article, les auteurs proposent de rendre locale la mesure en réalisant le calcul de l’indice dans une fenêtre glissante. Cela est une approche très classique. Le gros reproche de cette “localisation” porte sur le choix de la taille de la fenêtre glissante.

        Précédemment3, nous avons introduit une mesure de dissimilarité locale permettant la comparaison d’images binaires. Une carte de dissimilarités locales (CDL) est ainsi construite en utilisant une une fenêtre glissante de taille auto-adaptative (voir le billet précédent par exemple).


        Carte de dissimilarités locales pour images en niveaux de gris

        Initialement, la CDL a été mise au point pour comparer des images binaires. La formule suivante est une expression de la CDL qui permet un calcul rapide (voir 3 pour les détails) :

         \mathrm{CDL}_{A, B} (x, y) = |A (x, y) - B (x, y) | \max (\mathrm{dt}_A (p), \mathrm{dt}_B (p))

        \mathrm{dt}_X est la transformée en distance de l’image X. Bien qu’initialement mise au point pour des images binaires, nous transposons cette définition dans le cas d’images en niveaux de gris. Ce passage est immédiat puisqu’il suffit d’utiliser la définition d’une transformée en distance d’une image en niveaux de gris. Il existe actuellement (à notre connaissance) plusieurs alternatives. Le choix portant sur la distance sous-jacente entre deux pixels :

        • GWDT (Gray Weighted Distance Transform) : la distance est l’intégrale des niveaux de gris entre les deux pixels 6. :

         d_{GWD}(a, b) = \frac{1}{2} (I(a) + I(b)) \times || a - b ||

        ||a-b|| est la distance spatiale entre les deux pixels a et b, I(a) est le niveau de gris du pixel a.

        • WDTOCS (Weighted Distance Transform On Curved Space) : la distance est la longueur du chemin géodésique entre les deux pixels 4 :

         d_{WDOCS}(a, b) = \sqrt{\left(I(a) + I(b)\right)^2 + || a - b ||^2}.

        Ces deux transformées peuvent être calculées rapidement, avec une très bonne approximation, par un algorithme ne parcourant l’image que deux fois. La formule de la CDLng est donc la même que la CDL binaire :

         \mathrm{CDLng}_{A, B} (x, y) = |A (x, y) - B (x, y) | \max (\mathrm{dt}_A (p), \mathrm{dt}_B (p))

        Appliquons cette CDLng à l’évaluation locale puis globale de la qualité d’images compressées.


        Estimation locale de la qualité de compression :

        Une image CT (Computed Tomography) est choisie comme référence et compressée par JPEG2000 à 0,16bpp (bits par pixels) :

        La compression introduit des perturbations, notamment au niveau de certaines structures. Calculons l’indice SSIM (pour deux tailles de fenêtre) entre la référence et l’image reconstruite :

        Images comparées avec SSIM local (taille 7 et 15)
        Images comparées avec SSIM local (taille 7 et 15)

        Même comparaison mais avec deux CDLng (avec GWD et WTDOCS) :

        Image SSIM local (taille 7 et 15)
        Image SSIM local (taille 7 et 15)

        Commentaires :

        • Aucune localisation de distorsions n’est satisfaisante avec l’indice SSIM . Seule une grande taille de fenêtre (15 x 15) permet d’obtenir des informations. Cependant, la grande taille de fenêtre induit un effet de lissage qui interdit toute localisation précise.
        • Pour les deux cartes CDL, les structures distordues sont clairement mises en évidence. Le compromis inhérent à l’indice SSIM local (lié au choix de la taille de la fenêtre glissante) n’existe pas.


        Estimation globale

        Nous construisons un indice de dissimilarité globale (IDG) en agrégeant les mesures de la CDLng :

         IDG(A, B) = \sqrt{\sum_{p \in A}CDL_{A, B}(p)^2}.

        L’indice SSIM est calculé entre la référence et une gamme de versions compressées de cette référence. Trois algorithmes de compression sont comparés : JPEG, JPEG2000 et SPIHT :

        La même évaluation est réalisée avec l’indice IDG (avec WDOCS) :

        • Les courbes indiquent un comportement parfaitement cohérent de l’indice global IDG proposé. Ainsi, la qualité de la compression JPG est reconnue plus faible que JPEG2000 et SPIHT.
        • Les courbes IDG permettent de retrouver le résultat d’une autre étude 4 : la compression JPEG2000 n’est plus performante que JPEG qu’avec des taux de compression élevé (i.e. faibles bpp, sur la droite des abcisses) : zoomer sur l’image pour améliorer la lecture de ce comportement. Ce résultat n’est pas observable avec SSIM.


        Conclusion

        Les deux mesures proposées (locale et globale) ont donc de très bonnes performances. Selon moi, l’explication est que la carte de dissimilarité sont bien définie localement, contrairement aux indices globaux calculés localement. Pour ces indices globaux, aucun choix de taille de fenêtre n’est satisfaisant. Si une petite fenêtre est choisie, les valeurs de variances ou de moyennes (a la base du SSIM) ne signifie que peu de chose. Si une grande fenêtre est retenue, les (fines) structures ne sont pas observables. Dans les deux cas, le SSIM ne peut attraper les différences locales.

        Du bon comportement local de la CDL nous tirons une mesure globale qui finalement, possède également un bon comportement. Il me semble plus cohérent de déduire une information globale d’un ensemble d’informations locale, que le contraire.

        FMN.

        1. Thèse de doctorat de Yann Gaudeau : Contributions en compression d’images médicales 3D et d’images naturelles 2D, soutenue en 2006.

        2.

        • [2004,article] bibtex Go to document
          Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, "Image quality assessment: from error visibility to structural similarity," Image Processing, IEEE Transactions on, vol. 13, iss. 4, pp. 600-612, 2004.
          @article{Wang2004,
            author = {Wang, Zhou and Bovik, A. C. and Sheikh, H. R. and Simoncelli, E. P.},
            journal = {Image Processing, IEEE Transactions on},
            keywords = {ssim, sync},
            number = {4},
            pages = {600--612},
            title = {Image quality assessment: from error visibility to structural similarity},
            url = {http://dx.doi.org/10.1109/TIP.2003.819861},
            volume = {13},
            year = {2004}
          }

        3.

        • [2009,inproceedings] bibtex Go to document
          F. Morain-Nicolier, J. Landré, and S. Ruan, "Binary Symbol Recognition from Local Dissimilarity Map," in 8th International Workshop on Graphic Recognition (GREC2009), La Rochelle, France, 2009, pp. 143-148.
          @INPROCEEDINGS{Nicolier2009,
            author = {F. Morain-Nicolier and J. Landr\'e and S. Ruan},
            title = {Binary Symbol Recognition from Local Dissimilarity Map},
            booktitle = {8th International Workshop on Graphic Recognition (GREC2009)},
            year = {2009},
            pages = {143--148},
            address = {La Rochelle, France},
            month = {jul},
            url = {http://pixel-shaker.fr/wp-content/uploads/publications/Nicolier2009.pdf}
          }

        4.

        • [2007,article] bibtex
          Y. H. Shiao, T. J. Chen, K. S. Chuang, C. H. Lin, and C. C. Chuang, "Quality of compressed medical images," Journal of Digital Imaging, vol. 20, iss. 2, pp. 149-159, 2007.
          @article{Shiao2007,
            author = {Shiao, Y.H. and Chen, T.J. and Chuang, K.S. and Lin, C.H. and Chuang, C.C.},
            journal = {Journal of Digital Imaging},
            number = {2},
            pages = {149--159},
            title = {Quality of compressed medical images},
            volume = {20},
            year = {2007}
          }

        Tags: , , , , ,