Les publications récentes de travaux sur la reconnaissance d’images par ordinateur montrent des avancées significatives dans le domaine.
Un rapport du NIST (National Institute of Standards and Technology) en date du 29 mars 2007 met en avant les progrès réalisés sur les algorithmes de détection de visages et d’iris de l’oeil. Lors du Face Recognition Vendor Test (FVRT) 2006 et du Iris Challenge Evaluation (ICE) 2006, des tests indépendants ont évalué 25 algorithmes. Les améliorations portent essentiellement sur deux points. D’une part, le taux d’erreur est passé de 0.79% en 1993 à 0.01% en 2006. Une expérience a montré que les meilleurs systèmes de reconnaissance font mieux qu’une détection humaine (algorithmes TS2-Norm de Tsingha, V-NORM de Viisage et ST-NORM de SAIT). En revanche, les temps de traitement varient largement entre les systèmes : l’algorithme de Cambridge (CAM-2) a mis 6 heures pour traiter 59 567 images d’iris correspondant à 240 personnes (sur un Pentium 4 3.6GHz avec 4Go de RAM), contre 300 heures pour les systèmes concurrents. Ces avancées sont dues à l’utilisation d’images haute définition, à l’amélioration des capteurs et aux nouveaux algorithmes employés.
Toujours dans le domaine du traitement d’images, des chercheurs du Massachusetts Institute of Technology (MIT) et de l’University of California San Diego (UCSD) proposent de leur côté de nouvelles voies pour les systèmes de reconnaissance à apprentissage. L’équipe du Dr. Serre au MIT a développé un modèle qui a pour but d’identifier des classes d’objets au sein d’une image en imitant le processus de reconnaissance effectué par le cerveau humain, en suivant l’approche hiérarchique classique de Hubel & Wiesel. Le modèle prévoit un premier traitement élémentaire de l’image par un très grand nombre d’unités (10 millions) qui vont ensuite passer l’information après transformation aux niveaux supérieurs, avec une alternance de réponses gaussiennes et d’agrégation par la fonction max. Les niveaux inférieurs de la reconnaissance (primitives élémentaires) font l’objet d’un apprentissage non supervisé, tandis que les niveaux supérieurs (éléments reconnus) sont entraînés en apprentissage supervisé pour aboutir à la reconnaissance de classes.
Les chercheurs de l’UCSD ont quant à eux mis au point un système appelé Supervised Multiclass Labelling (SML), en partenariat avec Google : dans un premier temps, des images d’un même « classe » (des images de montagnes par exemple) sont soumises au système. Ces images sont découpées en bloc de 8×8 pixels pour en tirer des caractéristiques localisées représentatives. Le système est ensuite capable de donner une probabilité pour qu’une image choisie arbitrairement fasse partie de classes déjà mémorisées. Cette technique permet donc d’associer automatiquement des mots clés à une image et pourrait rendre beaucoup plus pertinente la recherche de documents visuels sur Internet. Il sera alors possible d’effectuer une recherche par rapport à ce qu’une image représente (une recherche sémantique) et non plus seulement par rapport à son contexte (texte dans la page, données IPTC et EXIF) ou en fonction de l’extraction de primitives graphiques comme c’est le cas aujourd’hui.
Source :
– Easy on the eyes
https://www.economist.com/science/displaystory.cfm?story_id=8954632
– Better, More Accurate Image Search
https://www.technologyreview.com/Infotech/18501/
– That face! Those eyes! How recognizable?
https://www.gcn.com/online/vol1_no1/43424-1.html
Pour en savoir plus, contacts :
– FRVT 2006 and ICE 2006 Large-Scale Results
https://iris.nist.gov/ice/FRVT2006andICE2006LargeScaleReport.pdf
– Object Recognition in cortex
https://web.mit.edu/serre/https://www/Research.htm
– A feedforward architecture accounts for rapid categorization (Thomas Serre, Aude Oliva, and Tomaso Poggio), PNAS Online 2 avril 2007
https://www.pnas.org/cgi/content/full/104/15/6424?maxtoshow=&HITS=10&hits=10&RESULTFORMAT=&fulltext=serre&searchid=1&FIRSTINDEX=0&sortspec=date&resourcetype=HWCIT
– New Algorithms from UCSD Improve Automated Image Labeling
https://ucsdnews.ucsd.edu/newsrel/science/03-07Vasconcelos.asp
Code brève
ADIT : 42394
Rédacteur :
Vincent Reboul [email protected] – Jean-Philippe Lagrange [email protected]