Colloque

Extraction de l'information structurelle incluse dans une image 2D

Marielle Mokhtari

Robert Bergevin

Membre a labase

Marielle Mokhtari

Résumé du colloque

La réalisation de systèmes autonomes robustes et performants est l'un des buts principaux de la recherche en vision artificielle. Un exemple d'un tel système est un robot mobile autonome et intelligent comprenant 3 composantes principales: (i) un module de perception visuelle, (ii) un module de raisonnement et (iii) un module d'action. Ces composantes sont idéalement organisées en une boucle fermée de flux d'information et de contrôle permettant au robot d'évoluer dans son environnement en évitant les collisions, tout en atteignant des objectifs précis fixés par l'application. La perception du robot se matérialise en pratique par la production d'une description de son environnement immédiat selon les caractéristiques de forme géométrique des objets présents. Les méthodes d'extraction des caractéristiques doivent être compatibles avec la reconnaissance générique des objets et avec le calcul de la pose d'objets spécifiques. La première phase du module de perception, qui en comprend trois, consiste à extraire l'information structurelle de base d'une image 2D statique achromatique. Celle-ci est prise d'un point de vue quelconque, et représente une scène d'intérieur encombrée, composée d'objets fabriqués par l'homme, généralement opaques, en occlusion ou non. Cette phase est divisée en trois étapes: (i) Afin de réaliser une détection optimale des arêtes, les approches gradient et laplacien sont étudiées, par le biais, respectivement, des méthodes de Canny, Deriche, Sarkar-Boyer, et Marr-Hildreth. Une analyse comparative définit la meilleure approche étant donné les données de l'image; (ii) Les contours ouverts et fermés correspondant aux frontières des objets sont identifiés dans l'image d'arêtes selon une méthode classique; Et, (iii) afin de produire une segmentation robuste des contours en segments droits et/ou courbes (entités de base), une étude des méthodes de Sarkar-Boyer et d'Etemadi entraîne la définition d'une méthode hybride qui corrige des défaillances détectées dans les algorithmes proposés. Des résultats sont générés pour soutenir chaque analyse. L'extraction de l'information structurelle est critique pour le module de perception car les phases suivantes, regroupement des entités de base en structures de niveau élevé et interprétation volumétrique de celles-ci, en découlent directement. Les structures 3D ainsi définies conduisent à une description adéquate de la scène.