STS:多视角三维检测的全景时空立体视觉
本文提出了一种基于时间立体的有效方法来处理三维物体检测中深度感知所固有的模糊性。其有效地选择了匹配候选项的比例,极大地减少了计算开销,设计了一种迭代算法来更新更有价值的候选项,使其适应于移动的候选项,并达到了比现有的 MVS 方法更好的性能。
Sep, 2022
提出了一个基于动态时间立体视觉策略的 3D 物体检测框架 BEVStereo++, 并通过使用运动补偿模块和长序列帧融合方法,实现了在 Waymo 和 nuScenes 数据集上的最先进表现 (SOTA)。
Apr, 2023
本文提出了一种名为 SurroundDepth 的新型深度估计方法,运用多摄像头技术以及跨视图变换器,实现了在自动驾驶中对深度地图的精准预测,且在多视角实现机体运动一致性,取得了 DDAD 和 nuScenes 两个数据集的最佳成绩。
Apr, 2022
本文提出 TS3D,一种基于 Transformer 的立体感知 3D 物体检测器,其中包括一种新颖的视差位置编码模型(DAPE)和 Stereo Reserving Feature Pyramid Network(SRFPN),使其在 KITTI 测试集上取得了 41.29%的平均精度。
Apr, 2023
通过使用双目输入,引进左右一致性损失函数,并提出一种保存边缘特征的损失函数来改善测试时训练中的深度模糊问题,提出了一种稠密的双目视频深度估计方法,调研结果表明该模型精度可靠。
May, 2023
DUSt3R 是一种新颖的范式,用于进行任意图像集合的密集和无约束立体三维重建,通过将成对的重建问题作为点图的回归来实现,进而实现单眼和双眼重建的统一,提供场景的三维模型和深度信息,并能够轻松恢复像素匹配、相对和绝对相机,DUSt3R 能够简化多种几何三维视觉任务。
Dec, 2023
本文提出了一种新颖的基于 Transformer 的 DynamicStereo 结构来解决从双目摄像机中重构动态场景的问题,并介绍了 Dynamic Replica 数据集来提供更贴近实际应用的训练和评估数据。
May, 2023
在自动驾驶车辆的背景下,本文重新审视视觉深度估计问题。我们提出了一种新颖的半监督学习方法来训练深度立体神经网络,并提出了一种包含机器学习的 argmax 层和定制运行时的体系结构,可在嵌入式 GPU 上运行一个较小版本的我们的 Stereo DNN。在 KITTI 2015 立体数据集上展示了有竞争力的结果。
Mar, 2018
使用基于学生 - 教师策略、数据集成和立体信心引导回归损失的方法,可以提高单目深度估计的精度,并用于高级视觉任务,如室外场景的驾驶情境等。
Apr, 2019