We introduce the new setting of open-vocabulary object 6d pose estimation, in
which a textual prompt is used to specify the object of interest. In contrast
to existing approaches, in our setting (i) the object of
本研究提出了一种解决 3D 物体检测和姿态估计中本质的模糊性的方法。对于每个物体实例,我们预测多个姿态和类别结果,以估计由对称和重复文理所产生的特定姿态分布。当视觉外观唯一识别出一个有效姿态时,分布将崩溃为单一结果。我们展示了我们的方法的好处,不仅提供更好的姿态模糊解释,而且在姿态估计方面也具有更高的准确性。