输入级别感应偏置用于 3D 重建
本文研究了学习基础的 3D 重建方法在体现经验偏好时的架构问题,发现编码器空间范围、场景几何特征描述和多视图信息聚合机制对性能的影响,并提出相应的机制以增强对这些经验偏好的表达。在 ShapeNet 基准测试中,我们的模型在各种设置下均实现了最先进的成果。
Jun, 2020
利用感知偏置进行表面法线估计,采用像素级射线方向并学习邻近表面法线之间的相对旋转关系,可以在任意分辨率和长宽比的复杂野外图像中生成鲜明但分段平滑的预测,且该方法具有较强的泛化能力,即使训练数据集规模比最先进的 ViT 模型小几个数量级。
Mar, 2024
本文提出一个系统研究深度生成模型的偏差和泛化的框架,并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。
Nov, 2018
提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。 该方法通过偏差对齐目标来强制学习更通用的表示,从而减轻了深度神经网络中的一些缺点,如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案,对改善分类和鲁棒性之间的平衡起到了帮助的作用。
Jun, 2022
提出了一种使用 Transformer 架构学习隐式多视图一致场景表示并引入一系列 3D 数据增强技术的方法来增加视角多样性的深度估计网络,同时介绍了引入视角合成作为辅助任务,该网络在不使用显式几何约束的情况下在立体和视频深度估计方面取得了最先进的结果, 并在零样本领域泛化方面有了显著的提高。
Jul, 2022
探讨了利用几何约束来学习视角不变、几何感知表达,通过对 RGB-D 数据进行对比度学习,实现从 3D 先验信息到 2D 表达的迁移,并在语义分割、实例分割、室内物体检测中实现了显著提升。
Apr, 2021
基于人类基于过去经验从 2D 图像中推断出 3D 结构,并随着观察更多图像改进 3D 理解的行为,我们引入了 SAP3D,这是一个从任意数量的非约束图像进行 3D 重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作 3D 重建和新视角合成的特定实例先验。我们通过实际图像和标准合成基准测试了我们的系统。我们的消融研究证实了这种适应行为对于更准确的 3D 理解至关重要。
Apr, 2024
通过 monocular geometry prediction 预测的深度和法向量提示显着提高神经隐式表面重建的质量和优化时间,特别是在大规模复杂场景下,独立于表征的选择。
Jun, 2022
研究提出一种基于神经符号编程的 Perspective Plane Program Induction(P3I)框架,用于解决自然图像的逆向图形问题,并获得相机位置、物体位置和全局场景结构等高级场景表示,并能进行图像修补等低级图像处理任务。
Jun, 2020