Publication

Real-Time Seamless Single Shot 6D Object Pose Prediction

Pascal Fua, Bugra Tekin, Sudipta Sinha
2018
Article de conférence
Résumé

We propose a single-shot approach for simultaneously detecting an object in an RGB image and predicting its 6D pose without requiring multiple stages or having to examine multiple hypotheses. Unlike a recently proposed single-shot technique for this task [10] that only predicts an approximate 6D pose that must then be refined, ours is accurate enough not to require additional post-processing. As a result, it is much faster 50 fps on a Titan X (Pascal) GPU and more suitable for real-time processing. The key component of our method is a new CNN architecture inspired by, [27, 28]that directly predicts the 2D image locations of the projected vertices of the object's 3D bounding box. The object's 6D pose is then estimated using a PnP algorithm. For single object and multiple object pose estimation on the LINEMOD and OCCLUSION datasets, our approach substantially outperforms other recent CNN-based approaches [10, 25] when they are all used without post processing. During post-processing, a pose refinement step can be used to boost the accuracy of these two methods, but at 10 fps or less, they are much slower than our method.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (32)
Cartographie et localisation simultanées
vignette|Une carte générée par le robot Darmstadt. La localisation et cartographie simultanées, connue en anglais sous le nom de SLAM (simultaneous localization and mapping) ou CML (concurrent mapping and localization), consiste, pour un robot ou véhicule autonome, à simultanément construire ou améliorer une carte de son environnement et de s’y localiser. La plupart des robots industriels sont fixes et effectuent des tâches dans un environnement connu.
Volume englobant
Dans les domaines de la synthèse d'image et de la géométrie algorithmique, un volume englobant pour un ensemble d'objets est un volume fermé qui contient entièrement l'union de l'ensemble des objets. Les volumes englobants sont utilisés pour améliorer l'efficacité des opérations géométriques en utilisant des volumes simples, qui contiennent des objets beaucoup plus complexes. Normalement, plus un volume est simple plus le test de chevauchement est simple. Les volumes englobants sont le plus souvent utilisés pour accélérer certains types de tests.
Scale-invariant feature transform
[[Fichier:Matching of two images using the SIFT method.jpg|thumb|right|alt=Exemple de mise en correspondance de deux images par la méthode SIFT : des lignes vertes relient entre eux les descripteurs communs à un tableau et une photo de ce même tableau, de moindre qualité, ayant subi des transformations. |Exemple de résultat de la comparaison de deux images par la méthode SIFT (Fantasia ou Jeu de la poudre, devant la porte d’entrée de la ville de Méquinez, par Eugène Delacroix, 1832).
Afficher plus
Publications associées (40)

Aggregating Spatial and Photometric Context for Photometric Stereo

David Honzátko

Photometric stereo, a computer vision technique for estimating the 3D shape of objects through images captured under varying illumination conditions, has been a topic of research for nearly four decades. In its general formulation, photometric stereo is an ...
EPFL2024

Rigidity-Aware Detection for 6D Object Pose Estimation

Mathieu Salzmann, Yinlin Hu, Jingyu Li, Rui Song

Most recent 6D object pose estimation methods first use object detection to obtain 2D bounding boxes before actually regressing the pose. However, the general object detection methods they use are ill-suited to handle cluttered scenes, thus producing poor ...
Los Alamitos2023

Rethinking Pose Estimation in Crowds: Overcoming the Detection Information Bottleneck and Ambiguity

Alexander Mathis

Frequent interactions between individuals are a fundamental challenge for pose estimation algorithms. Current pipelines either use an object detector together with a pose estimator (top-down approach), or localize all body parts first and then link them to ...
2023
Afficher plus
MOOCs associés (4)
Introduction à la Programmation Orientée Objet (en Java)
Le cours suivi propose une introduction aux concepts de base de la programmation orientée objet tels que : encapsulation et abstraction, classes/objets, attributs/méthodes, héritage, polymorphisme, ..
Introduction à la Programmation Orientée Objet (en C++)
Le cours suivi propose une introduction aux concepts de base de la programmation orientée objet tels que : encapsulation et abstraction, classes/objets, attributs/méthodes, héritage, polymorphisme, ..
Digital Signal Processing [retired]
The course provides a comprehensive overview of digital signal processing theory, covering discrete time, Fourier analysis, filter design, sampling, interpolation and quantization; it also includes a
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.