Category Archives: Research

Comment éviter l'empirisme pour évaluer ou régler un système de vision ?

Translate original post with Google Translate

L'évaluation des performances des systèmes de vision est bien souvent empirique. Comme le mentionne Bernd Jähne (1), c'est une partie bien souvent négligée. Les critères utilisés pour évaluer un système sont :

  • la réussite de la tâche,
  • la précision,
  • et la vitesse.

Comme je l'ai indiqué précédemment, nous devrions ajouter à ses critères celui de la capacité d'une proposition à enrichir les connaissances sur l'objet étudié.

Malheureusement, ces critères (réussite, précision, vitesse) sont le plus souvent définis empiriquement. C'est-à-dire que le système est confronté à un ensemble d'images qui peuvent être synthétiques ou issues du monde réel. Les performances sont alors estimées selon la réussite/précision/vitesse du traitement des images.

C'est également de cette manière qu'un système est réglé. Les paramètres sont ajustés pour obtenir une bonne réussite/précision/vitesse de traitement.

Pourtant, il serait bon de définir des propriétés fondamentales devant être vérifiées par un système. L'énoncé de propriétés théoriques permettrait de comparer plus aisément les systèmes et algorithmes entre eux. De plus, cela ouvrirait la voie à l'obtention de systèmes optimaux.

C'est ainsi que Canny en 1986 a posé les bases d'un détecteur de contours optimal. Les propriétés fondamentales cherchées étaient : bonne détection, bonne localisation et réponse unique. Le filtre de Canny ainsi obtenu garantit une réponse optimale à ces critères, quelle que soit l'image traitée.

Il me semble que les domaines ayant bénéficié d'avancées sont ceux dont les objectifs et les propriétés recherchées ont été formalisés. Par exemple : les détecteurs de contours ou la classification.

Il reste des domaines où l'empirisme règne en maître. Il serait bon d'apporter des réponses à des questions telles que :

  • Quelles sont les propriétés fondamentales d'un système de reconnaissance d'objets ?
  • Quelles sont celles d'un système d'indexation d'images ou d'un algorithme de segmentation ?

FMN.


  1. B. Jähne et H. Haussecker, « Computer Vision and Applications - A Guide for Students and Practionners », Academic Press, 2000. 

Les propriétés essentielles d'un système de vision

Translate original post with Google Translate

Je suis actuellement en train de préparer un cours sur la vision artificielle. Je relis donc mes classiques. Ainsi, le livre « Vision par ordinateur - outils fondamentaux » de Horaud & Monga est un incontournable, parce qu'il est bien écrit et en français, même s'il date un peu (ici en ligne).

Dans l'introduction, les auteurs indiquent que

la reconnaissance visuelle doit être fiable et rapide

, ce qui semble tomber sous le sens.

Cependant, c'est une vision idéaliste. Un grand nombre de problèmes n'admettent pas de telles solutions. Il n'est évidemment pas question d'abandonner la fiabilité, sinon le système n'est pas utile. Par contre, la rapidité n'est pas forcément une propriété essentielle. Ce peut l'être pour l'ingénieur confronté à un problème incluant des contraintes de temps de calcul. Par contre pour le chercheur, je pense qu'il vaut mieux proposer une solution fiable et lente, si cette solution est nouvelle, plutôt que pas de solution du tout.

Ainsi à ces deux propriétés, j'en ajouterais une troisième, plus essentielle - du moins pour le chercheur en vision :

la reconnaissance visuelle doit être instructive.

Le système proposé doit permettre de mieux comprendre ce qu'est la vision artificielle, même si à la limite il ne permet pas de résoudre un problème donné. Il doit enrichir la connaissance sur l'image numérique, son analyse et ses interactions.

FMN.

Note de lecture : A survey of copy-move forgery detection techniques [Bayram 2008]

Translate original post with Google Translate

S. Bayram, H.T. Sencar and N. Memon, "A survey of copy-move forgery detection techniques", IEEE Western New York Image Processing Workshop, 2008.

Objectifs

Cet article dresse un état de l'art la détection de falsification d'images par copier-coller.

Méthodologie/Résultats principaux

Une méthode de contrefaçon d'image consiste à copier une portion pour la coller sur une autre partie pour recouvrir une information importante. Le résultat est une falsification qui conserve la plupart des propriétés de l'image, puisque la modification est interne.

La duplication peut faire intervenir des modifications géométriques (rotation ou homothétie) ou de valeurs (flo ou ajout de bruit). Une bonne détection doit donc être robuste à ces modifications.

La détection de ce type de falsification revient donc à détecter des duplicatas dans une image.

Les approches possibles

  • Recherche exhaustive (explosion combinatoire)
  • Utilisation des propriétés de l'intercorrélation (ne semble fonctionner que si de grandes portions de l'image sont dupliquées).
  • Mise en correspondance de blocs. Cette méthode est la plus étudiée dans la communication. Il s'agit de découper (segmenter) l'image en blocs qui se recouvrent. La tâche consiste alors à détecter les blocs connectés qui ont été copiés et collés.

Il est, dans ce dernier cas, important de disposer d'une représentation robuste des blocs. L'autre difficulté réside dans la comparaison des paires de blocs, qui doit être rapide.

Les représentations des blocs

La première opération consiste à découper l'image en blocs, puis chaque bloc doit être réprésenté :

  • Par DCT (Discrete Cosine Transform) : robuste au bruit
  • Par PCA (Principal Component Analysis) : robuste à la compression et au bruit, mais sensible au rééchantillonnage.
  • Utilisation de la DWT (Discrete Wavelet Transform) pour décomposer l'image en quatre sous-bandes, puis divisions des sous-bandes en blocs recouvrant. Avantage : réduction du nombre de blocs. Puis applications de la SVD (Singular Value Decomposition, analogue à PCA). Au final, cette méthode est robuste à la compression seulement.
  • Utilisation des données couleur de chaque bloc (moyenne des canaux rouge, vert et bleu par exemple) : très robuste à la compression, au flou gaussien et au bruit.
  • Récemment (par rapport à 2008), la transformée de Mellin-Fourier à été employée. Un vecteur est obtenu par projection 1D des valeurs du domaine log-polaire. Au final : robustesse à la rotation, homothétie et à la compression.

Mise en correspondance des blocs

Les articles comparés dans cette étude s'appuient tous sur un tri lexicographique des vecteurs d'attributs décrivant les blocs. L'idée est que deux blocs similaires auront des attributs similaires. Le tri lexicographique entrainera une proximité des vecteurs. Ainsi, des blocs correspondants viendront consécutivement dans la suite des vecteurs triés.

Le challenge consiste alors à obtenir des temps de calcul faibles. L'utilisation de hachages est alors efficace.

Critiques

  • Le papier semble orienté en faveur d'une méthode des auteurs (celui à base de transformée Mellin-Fourier).

FMN.