ImageNet3D:面向通用对象级别3D理解
本文提出了一种基于3D可变形线框的高分辨率车辆对象表示,该表示能精细地建模单个点和面的水平,结合此表示和明确的3D场景模型,我们能够对场景进行更细致和准确的理解并从单个视角评估多个对象的位置与视点的单眼3D姿态估计。
Nov, 2014
本文介绍 PartNet 数据集,该数据集是一个一致的、大规模的、带有精细的、实例级别的和分层的 3D 部分信息的 3D 对象的注释数据集。我们提出了三种评估 3D 部分识别的挑战,包括细粒度语义分割、分层语义分割和实例分割,并基于该数据集进行了实验,结果表明其优越性能。
Dec, 2018
介绍了Objectron数据集,旨在推进3D物体检测等新兴研究领域的发展,数据集中有九个类别的注释短视频,包含了1400万个注释图像和14819个注释视频。同时,提出了一种新的评估指标,3D Intersection over Union,证明了数据集在推进3D物体检测任务方面的有用性。提供了在该数据集上训练的基准模型。
Dec, 2020
探讨了利用几何约束来学习视角不变、几何感知表达,通过对RGB-D数据进行对比度学习,实现从3D先验信息到2D表达的迁移,并在语义分割、实例分割、室内物体检测中实现了显著提升。
Apr, 2021
通过使用视觉-语言(VL)基础模型,将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述,在对象级别进行细粒度的视觉-语义表示学习,并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题,从而在3D语义、实例和全景分割任务中获得显著的改进。
Aug, 2023
通过单个参考视图与查询图像之间的相对物体姿态估计,我们提出了一种基于假设和验证框架的新方法,并引入了一种3D感知验证,以衡量可靠性,证明了我们方法在相对姿态估计和处理未见过的物体时的鲁棒性。
Oct, 2023
这篇论文介绍了一种基于零样本推理的3D分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定3D语义分割、3D实例分割和开放词汇3D分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的3D网格进行(细粒度的)特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型(LLMs)支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示3D对象的部分,包括这些组成部分的3D对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级3D(语义)对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
从无人监督的以物体为中心的视频中学习估计类别级三维姿态,使用多视角对齐和密集对应的方法,我们的模型在无人监督下表现出色,提供了准确可靠的预测结果。
Jul, 2024
本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷,特别是在对象类以外的领域。提出了一个新颖的任务,即广义开放词汇3D场景理解(GOV-3D),并贡献了基准OpenScan,涵盖多个细粒度对象属性。研究发现,现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难,强调了现有方法的局限性并探讨了克服这些短板的方向。
Aug, 2024
本研究解决了开放词汇3D物体检测中的数据稀缺问题,提出了一种新的框架ImOV3D,利用伪多模态表示综合图像和点云数据,克服了训练图像与测试点云之间的模态差距。通过有效的模态转换,ImOV3D在不依赖真实3D训练数据的情况下显著提升了检测性能,并在有限真实3D数据的微调下超越了先前的最佳模型。
Oct, 2024