Google vient de lancer un nouveau service (en béta), cette fois-ci sur la recherche d'images similaire. Vu la proximité avec mes recherches, je me suis essayé à utiliser cet outil.
Il est tout d'abord impossible de fournir une image requête. Il est donc obligatoire de fournir des mots-clefs permettant de rechercher des images. Ensuite seulement, en dessous de certaines d'entre elles apparaît un lien Similar images permettant de chercher les images similaires à celle sélectionnée. Il semble donc que Google s'appuie sur un ensemble d'images traitées offline.
Pour tester l'algorithme je suis partir d'une recherche d'image sur Philippe K. Dick. Une série d'image apparaît. La première est une image couleur qui porte le lien Similar images. Je tente donc la recherche et j'obtiens la série suivante :
Le résultat n'est pas fameux. Les images sont toutes en couleurs et contiennent presque toutes des visages. Quelques images dérivent vers de la lingerie. Aucune image ne contient soit un visage de K. Dick, soit un visage lui ressemblant. Cependant la photo sélectionnée pour le test n'est pas la plus répandue de l'auteur de science-fiction.
Renouvelons l'expérience avec la seconde image qui est peu être un des portraits les plus connus de K. Dick :
Comment google a t-il fait pour savoir que Kubrick et K. Dick sont dans mon coeur depuis des années ? En tout cas, la recherche d'image similaires par Google n'a pas fonctionnée. On retrouve bien des photos noir et blanc, mais très peu de portrait de K. Dick. De plus les images fournies divergent franchement : une photo issue de Dr Folamour (n'ayant aucune ressemblance avec le portrait initial), un double portrait de H. Ford et S. Young (acteurs dans le film Blade runner : inspiré de "les androides rêvent-ils de moutons électriques" de K. Dick).
Il est possible d'avoir plus de succès avec des images plus classique, par exemple en recherchant les images similaires de moutons, ou de chats (pour rester dans l'univers de K. Dick). Les images obtenues correspondent clairement en majorité à la requête et les couleurs sont dans les même gammes.
Conclusion
- Les images obtenues semblent être choisies à partir d'une distance calculée en fusionnant les informations textuelle (mots-clefs attachés aux images) et visuelles.
- Les informations visuelles retenues sont vraisemblablement classique : texture et couleurs.
- Les informations structurelles ne semblent pas avoir été retenues.
L'algorithme doit certainement fonctionner en calculant des signatures d'images. En ne retenant que la texture et la couleur, il est possible de construire des signatures très compactes, compatibles avec la grand nombre de d'images de la base. Google tente d'améliorer les résultats en fusionnant une signature textuelle la signature visuelle. Les résultats sont très variables.
Je pense que l'outil proposé n'est pas une recherche d'images similaires, mais une recherche d'images pouvant être reliées à (donc une recherche beaucoup moins contrainte). En tout cas il ne s'agit que marginalement de similarité visuelle.
FMN.