Mosam Dabhi, Chaoyang Wang, Tim Clifford, Laszlo Attila Jeni, Ian R. Fasel...
TL;DR本文提出了使用非刚性 3D 神经先验结合深流技术从仅有两到三个非标定手持相机的视频中获取高保真的地标估计,只需少量人工标注便可达到与全监督方法相当的 2D 结果,以及其他现有方法不可能实现的 3D 重建。
Abstract
Labeling articulated objects in unconstrained settings have a wide variety of
applications including entertainment, neuroscience, psychology, ethology, and
many fields of medicine. Large offline labeled datasets do not exist for all
but the most common articulated object categories (e.g., humans). Hand labeling
these landmarks within a video sequence is a la
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注 3D 边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明,我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。