本文提出了一种基于3D可变形线框的高分辨率车辆对象表示,该表示能精细地建模单个点和面的水平,结合此表示和明确的3D场景模型,我们能够对场景进行更细致和准确的理解并从单个视角评估多个对象的位置与视点的单眼3D姿态估计。
Nov, 2014
本文提出了一种基于深度学习的DeepVoting算法,该算法可以检测物体的语义部位,即使存在局部遮挡的情况,并可以同时进行端到端的优化,通过提取局部视觉线索和空间关系进行投票机制,实现了该任务。
Sep, 2017
介绍一种新的数据驱动方法RevealNet,能够检测物体的实例以及推断物体的完整几何形状,包括隐藏和未观察到的部分。这种方法在真实和合成扫描基准数据上均表现出卓越的性能。
Apr, 2019
本研究提出了通过自然语言描述在RGB-D扫描中进行3D对象定位的方法ScanRefer,使用3D对象提取和编码的句子嵌入来学习融合描述符,将语言表达与几何特征进行相关性建模,可以实现目标对象的3D边界框的回归。同时还构建了ScanRefer数据集,包含来自800个ScanNet场景的11,046个对象的51,583个描述。这是第一个通过自然语言直接在3D中执行对象定位的大规模尝试。
Dec, 2019
BlockGAN是一种图像生成模型,可以从未标记的2D图像中学习具有物体感知的3D场景表示,并使用显式的3D特征来表示场景中的对象,实现了在保持图像真实性的同时,对于每个对象的3D姿态和身份进行控制,并学习到物体和属性方面的解耦合表示。
Feb, 2020
本研究提出了一种采用深度神经网络进行多对象实例分割的方法,该方法能够通过bounding box监督训练,具有鲁棒性并能处理复杂场景中的遮挡问题,从而提高图像分类精度。
Dec, 2020
本文提出了一种基于单幅图像的全面三维场景理解的新管道,该管道可以预测物体形状、物体姿态和场景布局,利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题,通过物理违规损失函数避免了物体之间的错误场景。实验结果表明,该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。
Mar, 2021
该论文提出了一种新的室内场景语义分割方法,使用一个新的3D-to-2D分解框架,可以从大规模的3D数据中提取3D特征,以增强从RGB图像中提取的2D特征,并通过对其进行标准化和语义相关的对抗性训练对其进行改进。
Apr, 2021
本文提出Local-HDP方法在高度遮挡条件下无法有效应用的问题,首先提出一种灵活的语义3D物体部件分割方法以应对开放式情况,其次,将该技术与最近引入的基于论证的在线增量学习方法相结合,从而使模型能够处理高度遮挡,并产生3D物体分类识别任务的明确解释集。
Jan, 2023
提出了一种名为Mask3D的预训练方法,可以将现有的大规模RGB-D数据应用于自监督预训练中,将3D先验嵌入到2D的学习特征中,并对多个场景理解任务产生了改进,尤其是语义分割。
Feb, 2023