Le but ultime d'un système de vision par ordinateur est de générer une description symbolique détaillée de chaque image présentée. Ce cours se concentre sur le problème essentiel de la perception.
Nous décrivons tout d'abord le problème du suivi d'objets dans des scènes complexes. Nous examinons deux défis clés dans ce contexte. Le premier est la séparation d'une image entre l'objet et l'arrière-plan à l'aide d'une technique appelée détection de changement. Le second est le suivi d'un ou plusieurs objets dans une vidéo. Ensuite, nous examinons le problème de la segmentation d'une image en régions significatives. En particulier, nous adoptons une approche ascendante dans laquelle les pixels ayant des attributs similaires sont regroupés pour obtenir une région. Enfin, nous abordons le problème de la reconnaissance d'objets. Nous décrivons deux approches du problème. La première reconnaît directement un objet et sa pose en utilisant l'apparence de l'objet. Cette méthode est basée sur le concept de réduction de dimension, qui est réalisée à l'aide de l'analyse en composantes principales. La seconde approche consiste à utiliser un réseau neuronal pour résoudre le problème de reconnaissance en apprenant une correspondance entre l'entrée (image) et la sortie (classe d'objet, identité de l'objet, activité, etc.). Nous décrivons comment un réseau neuronal est construit et comment il est entraîné à l'aide de l'algorithme de rétropropagation.