TL;DR该研究提出了一种新的方法,通过学习 3D 物体形状来改进现有的低样本学习方法,并在多个数据集上证明了其有效性,同时介绍了最大种类数量的 3D 对象数据集 Toys4K。
Abstract
It is widely accepted that reasoning about object shape is important for
object recognition. However, the most powerful object recognition methods today
do not explicitly make use of object shape during learning.
本篇论文旨在通过两种创新,基于从运动视角观察物体的方式,不需要手动注释,实现学习 3D 物体类别的传统方法。我们的系统基于两种创新:一种是具有鲁棒性的 Siamese 视点因子分解网络,可以对不同的视频进行对齐;另一种是可以从部分观测中提取对象的完整形状的 3D 形状完成网络。我们还演示了配置网络以执行概率预测和几何感知数据增强方案的好处。在公开可用的基准测试中,我们获得了最先进的结果。
本研究研究了 3D 形状分类的表示和架构的作用,通过变化训练示例的数量和使用跨模态迁移学习,研究了现有深度架构的初始化对 3D 形状分类的影响,结果表明,多视图方法即使没有在大型标记图像数据集上预训练,甚至在训练简化输入(如二进制轮廓)时,也能提供最好的泛化性能。此外,从图像表示进行跨模态传输可以改善基于体素的 3D 卷积网络和基于点的架构的性能。最后,通过不可区分噪声,研究了 3D 形状分类器对于对抗性变化的鲁棒性,结果发现基于点的网络对于点位置扰动更为稳定,而基于体素和多视图的网络则很容易被输入中的微不足道的噪声所欺骗。