Je m'étais rendu compte que seule la perception grossière et erronée place tout dans l'objet, quand tout est dans l'esprit - Marcel Proust.
Lorsque nous percevons les objets qui nous entourent, nous attribuons des catégories. Les psychologues cognitivistes étudient depuis longtemps les processus activés lors de cette catégorisation. Ainsi trois niveaux sont distingués :
- Le niveau de base (basic level) est le niveau le plus abstrait où les objets considérés partagent encore un grand nombre de caractéristiques. Les catégories de ce niveau sont les catégories les plus facile à apprendre pour les enfants. Pour nommer les objets, les adultes utilisent plus spontanément des mots des ces catégories.
- Les catégories fines spécifiques (subordinate level) correspondent à des catégories plus spécialisées.
- Les catégories générales (superordinate level) contiennent des abstractions plus fortes.
Par exemple la catégorie "chien" pourrait se situer au niveau de base. Dans ce cas, "animal" serait une catégorie générale et "sharpeï" serait une catégorie fine spécifique. Les études montrent que le niveau des catégories peut varier avec les individus, selon leur expertise du domaine.
Eleanor Rosch en 1976 avait relevé que parmi des niveaux de catégorisation, organisés hiérarchiquement, le niveau de base était le plus rapide à être attribué, quelque soit la modalité perceptuelle prise en compte. Ainsi, des sujets à qui l'on présentaient des photographies, étaient plus rapide pour attribuer la catégorie "chien" que la catégorie "animal" ou "sharpeï" (le cas échéant). Dans cette étude les sujets devaient nommer la catégorie.
Un article récent d'une équipe de Toulouse 2 vient de limiter ces résultats (voir le papier en ligne ici). Les chercheurs du CNRS ont placé dix-huit volontaires dans des conditions où ils devaient, non pas répondre oralement, mais réagir le plus vite possible avec le doigt en relâchant un bouton quand ils voyaient une image contenant la cible qu'on leur demandait de chercher (un chien, un oiseau, un animal, etc.). Les images n'étaient affichées que pendant 26 millisecondes (ms) pour les encourager à agir encore plus vite, le seuil de perception des humains étant de près de 25 ms. (voir l'annonce sur FuturaScience).
Dans toutes les études postérieures à celle de Rosch, une forme de traitement lexico-sémantique était sollicitée. Les chercheurs toulousains ont voulu ici tester la seule réponse du système visuel. Il en ressort que les sujets ont reconnus plus rapidement la catégorie "animal" que les catégories "oiseau" ou "chien". Les chercheurs concluent que les représentations visuelles des catégories les plus générales sont accessibles les plus rapidement. Des représentation plus détaillées nécessitent des traitements plus long.
Ainsi dans le domaine visuel, une catégorie générale n'est pas abstraite d'une catégorie de base. La catégorisation supérieure se suffit d'une information perceptuelle limitée, grossière, accessible dans les premiers traitements réalisés par le système visuel humain. Les auteurs précisent que ce résultat est compatible avec la théorie PDP - Parallel Distributed Processing de J.L. Clelland (note personnelle : lire un papier sur cette théorie).
Je suis assez impressionné par ce résultat qui montre qu'une information visuelle grossière est suffisante pour ranger un objet dans une catégorie grossière. Cela laisse penser qu'une sorte de bijection peut existe entre la quantité d'information disponible et la granularité possible de la catégorisation. En étendant ce résultat à l'analyse d'image, cela indiquerait que pour réaliser une classification entre classes générales, toute l'information disponible dans une image n'est pas nécessaire. Ceci est un argument (de plus) en faveur des analyses coarse-to-fine.
La question reste de savoir quelles caractéristiques grossières sont pertinentes pour permettre une classification dans une catégorie générale.
FMN.
- [1976,article] bibtexE. Rosch, C. B. Mervis, W. D. Gray, D. M. Johnson, and P. B. Braem, "Basic objects in natural categories," Cognitive Psychology, vol. 8, iss. 3, pp. 382-439, 1976.
@article{Rosch1976,
author = {Rosch, Eleanor and Mervis, Carolyn B. and Gray, Wayne D. and Johnson, David M. and Braem, Penny B.},
doi = {10.1016/0010-0285(76)90013-X},
journal = {Cognitive Psychology},
keywords = {categorization, cognition},
month = {July},
number = {3},
pages = {382--439},
posted-at = {2008-09-13 11:46:11},
priority = {2},
title = {Basic objects in natural categories},
volume = {8},
year = {1976} }
- [2009,article] bibtex
M. J-M. J. Macé, O. R. Joubert, J. L. Nespoulous, and M. Fabre-Thorpe, "The time-course of visual categorizations: you spot the animal faster than the bird.," PloS one, vol. 4, iss. 6, 2009.@article{Mace2009,
author = {Mac\'{e},
Marc J-M J. and Joubert, Olivier R. and Nespoulous, Jean-Luc L. and Fabre-Thorpe, Mich\`{e}le},
doi = {10.1371/journal.pone.0005927},
issn = {1932-6203},
journal = {PloS one},
keywords = {perception, scene, semantics},
number = {6},
posted-at = {2009-08-23 01:02:19},
priority = {2},
title = {The time-course of visual categorizations: you spot the animal faster than the bird.},
url = {http://dx.doi.org/10.1371/journal.pone.0005927},
volume = {4},
year = {2009} }
- Une sélection (automatique) de billets similaires :
- Les propriétés essentielles d'un système de vision
- Comment éviter l'empirisme pour évaluer ou régler un système de vision ?
- Évaluation de la qualité d'images compressées avec des dissimilarités locales et globales
- Petite revue des transformations en distance pour des images en niveaux de gris
- Reconnaissance de symboles binaires par mesure de dissimilarités locales
C'est intéressant, mais est-ce surprenant?
Et rapide veut-il nécessairement dire grossier ? Et qu'en est-il pour les scènes vivantes, car la situation testée me semble surtout répondre à la catégorisation statique. Et tous cas, encore du grain à moudre, et du pain sur la planche.
Daniel, je suis assez épaté qu'il y ait une correspondance entre une sémantique grossière et une quantité d'information grossière. Par exemple que la catégorie "animal" puisse être reconnue avec peu d'information visuelle. Si l'on y pense, comment définir et reconnaître un animal? C'est une notion qui n'est pas visuelle. Que cette catégorie puisse être définie à partir d'un ensemble réduit de caractéristiques, d'accord. Mais j'aurais été enclin à penser que chaque caractéristique s'appuierait sur des informations visuelles détaillées. L'étude montre que ce n'est pas le cas.
Laurent, oui pour le système visuel humain, rapide est l'équivalent de grossier. Les première informations qui traversent le cortex visuel correspondent à une sorte d'image floue, qui est affinée avec les détails qui suivent temporellement, au fur et a mesure que l'oeil explore la scène. En tout cas, ta remarque sur la distinction scène animée/figée est pertinente, je ne sais pas si des études sont réalisées sur des scènes vivantes.
Si tu as une source nourrissante sur le sujet de la vision, je suis preneur. Je m'interroge encore sur l'aspect flou des premières informations transmises. Je me demande s'il n'y a pas, parfois, dans un court délai, des informations plus singulières, notamment du fait de l'exposition lumineuse de la scène, ou plus généralement dans des cas de forts contrastes de couleurs. Je pense par exemple aux flamands-roses sur fond aquatique. Ne les reconnait-on pas "instantanément", du fait de notre habitude (documentaire) à des images "uniques", de la couleur rose, sans passer par la case "oiseau" ? A moins de considérer les flamands comme les pingouins, trop loin du centroïde des oiseaux ? En d'autres termes, je me demande sur l'on n'intègre pas parfois des détails BF & des détails HF, dans des proportions potentiellement variables ?
Je m'interroge également sur la nature de ces premières informations. J'ai repris les termes employés par les auteurs, qui indiquent la transmission préliminaire d'une scène floue. Mais il serait plus juste de parler de scène partielle, peut-être constituée d'un mélange BF et HF comme tu le soulignes : pendant la construction de la scène observée, les premiers points observés sont les points de saillance (grosso modo de fort contraste). Peut-être que dans la description du modèle Parallel Distributed Processing, je trouverai des informations plus complètes.