深度神经网络在三维泛化中的特性探究

CVPRApr, 2023

深度神经网络在三维泛化中的特性探究

Investigating the Nature of 3D Generalization in Deep Neural Networks

Shoaib Ahmed Siddiqui, David Krueger, Thomas Breuel

TL;DR本文旨在研究和描述深度学习模型对于目标在不同旋转角度下的 2D 图像是否能够进行准确分类，探讨了三种通用的模型 (3D 通用、纯 2D 匹配和基于视角线性组合匹配) 在模型泛化性方面的表现，其中可以发现深度模型泛化能力强，但是其实现方式与这些现有模型不同。

Abstract

visual object recognition systems need to generalize from a set of 2D training views to novel views. The question of how the human visual system can generalize to →

visual object recognition deep learning generalization novel views supervised classification

发现论文，激发创造

单张图像纹理三维模型的视角推广

本研究介绍了一种模型，可以在降低模型的偏差的同时提高模型的方差，从而解决计算机视觉中物体单视角的外观推理问题，并加入循环一致性损失来提高视角泛化性能以及纹理对齐，与现有的最先进方法相比，我们的方法在定性和定量方面均有所提高。

Jun, 2021

多视角三维物体识别的深度模型综述

综述了基于多视图三维物体识别方法在三维分类和检索任务方面的最新进展，聚焦于基于深度学习和基于 Transformer 技术的方法，包括常用的三维数据集、相机配置和视角数量、视角选择策略、预训练卷积神经网络架构、融合策略以及在三维分类和检索任务上的识别性能，同时考察了多视图分类在计算机视觉应用中的各种情况，并凸显了关键发现和未来发展方向。

Apr, 2024

ImageNet3D：面向通用对象级别 3D 理解

通过与 ImageNet 数据集相结合，ImageNet3D 数据集提供了 200 个类别的 2D 和 3D 信息，从而为构建具有更强的通用性目标级三维理解的视觉模型提供了潜力。

Jun, 2024

用可神经映射的模型接近人类 3D 形状感知

了解人类对 3D 形状的推断在神经可映射计算架构中的基础，并强调未来研究的重要问题。

Aug, 2023

深度神经网络能够泛化到哪些超出分布的物体方位？

本文通过对深度神经网络（DNNs）在不同方向识别对象的表现进行了探究，并系统地检查了 DNNs 的通用性能力的限制，研究了数据多样性对其的影响，并得出了一个有趣的结论：DNNs 只能泛化到像 2D 一样的对象实例，即平面内旋转的内部分布方向。

Sep, 2021

深入探究 3D 形状分类器

本研究研究了 3D 形状分类的表示和架构的作用，通过变化训练示例的数量和使用跨模态迁移学习，研究了现有深度架构的初始化对 3D 形状分类的影响，结果表明，多视图方法即使没有在大型标记图像数据集上预训练，甚至在训练简化输入（如二进制轮廓）时，也能提供最好的泛化性能。此外，从图像表示进行跨模态传输可以改善基于体素的 3D 卷积网络和基于点的架构的性能。最后，通过不可区分噪声，研究了 3D 形状分类器对于对抗性变化的鲁棒性，结果发现基于点的网络对于点位置扰动更为稳定，而基于体素和多视图的网络则很容易被输入中的微不足道的噪声所欺骗。

Sep, 2018

可组合通用的三维结构预测

本文在单目图像 3D 形状重建领域引入了组合通用性的概念，并提出了一个新的框架来 better generalize 到那些有着非常不同的形状几何分布的看不见的目标类别。实验证明，我们的方法在 PartNet 中达到了比最先进的方法更高的性能，验证了我们的问题分解和网络设计的有效性。

Dec, 2020

深度神经网络可以学习可推广的同异视觉关系

经过深度神经网络的训练和微调，预训练的变换器可以学习到具有几乎完美准确度的在分布之外的同异关系，尤其针对缺乏纹理或颜色的抽象形状训练的模型表现最佳。

Oct, 2023

多视角卷积神经网络用于 3D 形状识别

本研究论述了通过 CNN 架构识别单个和多个渲染图像视角的 2D 视图图集能够在 3D 物体识别方面表现出更好的性能，提出并证明 CNN 架构结合多个视角信息可提供更好的识别性能，同样适用于人手绘图的物体识别。

May, 2015

基于学习的三维重建的泛化

本文研究了学习基础的 3D 重建方法在体现经验偏好时的架构问题，发现编码器空间范围、场景几何特征描述和多视图信息聚合机制对性能的影响，并提出相应的机制以增强对这些经验偏好的表达。在 ShapeNet 基准测试中，我们的模型在各种设置下均实现了最先进的成果。

Jun, 2020