DiffRef3D:一种基于扩散的三维物体检测提案细化框架
该研究提出了 3DifFusionDet 框架,将 3D 目标检测视为从噪声 3D 框到目标框的去噪扩散过程,并通过特征对齐策略和渐进改进方法,在 LiDAR-Camera 融合中取得了显著贡献。实验证明,3DifFusionDet 在 KITTI 上的表现优于前期的经典检测器。
Nov, 2023
通过引入一种新颖的基于扩散的边界精化方法,利用激光雷达点环绕粗糙边界框的无域扩散模型来同时精化边界框的位置、尺寸和方向,克服了现有模型在应用于具有不同传感器设置或地理位置的领域时面临的性能不稳定问题,从而在不同数据集、目标类别和检测器上实现了显著的改进。
May, 2024
基于扩散模型和逆扩散算法的 6D 物体姿态估计框架,在减少噪声和不确定性的基础上实现准确的 2D-3D 对应,并通过对物体特征进行条件优化,取得了较好的性能。
Dec, 2023
DiffusionDet 是一种将对象检测作为从噪声框到对象框的去噪扩散过程的新框架,其在训练阶段通过对象框从地面实况框扩散到随机分布,模型学习将该过程反转,在推断阶段,模型以渐进方式将一组随机生成框细化为输出结果,使用随机框作为对象候选框有利于解决对象检测问题,并且该问题可以通过生成方法来解决。
Nov, 2022
我们介绍了 3DiffTection,这是一种用于从单张图像中进行 3D 物体检测的最先进方法,利用了来自 3D 感知扩散模型的特征。通过两种专门的调整策略:几何和语义,我们的方法弥合了这些差距。通过我们的方法,我们获得了为 3D 检测量身定制的 3D 感知特征,以及在识别跨视角点对应方面表现出色的能力。
Nov, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
Diff3Det 使用扩散模型进行 3D 物体检测的提案生成,通过将检测框视为生成目标,在训练过程中将物体框从真实框扩散到高斯分布,并学习解码器逆转这个噪声过程。推理阶段,模型逐渐将一系列随机框细化为预测结果,在 KITTI 基准测试上表现出有希望的性能,相较于经典的基于锚点的 3D 检测方法。
Sep, 2023
使用单眼相机进行三维人体姿态估计存在深度模糊问题,本文提出了一种基于扩散的三维姿态优化器 (D3PRefiner),通过神经网络学习噪声姿态和真实姿态之间的映射关系,从而大幅提高当前的三维姿态估计性能。
Jan, 2024
基于扩散概率模型的新型不确定性感知场景流估计网络 (DifFlow3D) 提出,具有卓越性能,在 FlyingThings3D 和 KITTI 2015 数据集上分别降低了 6.7%和 19.1%的 EPE3D,且在 KITTI 数据集上实现了前所未有的毫米级准确度 (0.0089m 的 EPE3D)。扩散式精炼范式可作为即插即用模块集成到现有场景流网络中,显著提高其估计准确性。
Nov, 2023