自主驾驶的单视图和多视图深度的自适应融合

CVPRMar, 2024

自主驾驶的单视图和多视图深度的自适应融合

Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

JunDa Cheng, Wei Yin, Kaixuan Wang, Xiaozhi Chen, Shijie Wang...

TL;DR本文提出了一个鲁棒性评估基准来评估在各种嘈杂的相机位姿设置下深度估计系统，同时提出了一个自适应融合深度估计系统，通过动态选择两个分支之间的高置信度区域进行融合，以实现鲁棒和准确的深度估计。该方法在鲁棒性测试中优于现有的多视图和融合方法，并在挑战性基准（KITTI 和 DDAD）上实现了最先进的性能，假设具有准确的位姿估计。

Abstract

multi-view depth estimation has achieved impressive performance over various benchmarks. However, almost all current multi-view systems rely on given ideal camera poses, which are unavailable in many real-world scenarios, such as autonomous driving. In this work, we propose a new

multi-view depth estimation noisy pose settings robustness benchmark fusion methods state-of-the-art performance

发现论文，激发创造

多视角几何与单视角深度概率融合的多视角深度估计

提出一种融合单视角深度概率和多视角几何的新型框架 MaGNet，以提高多视角深度估计的准确性、鲁棒性和效率，并在 ScanNet、7-Scenes 和 KITTI 数据集上实现了最先进的性能。通过深度一致性加权和概率采样来解决纹理不清晰、反射表面和移动物体等失败模式。

Dec, 2021

FusionDepth: 用代价体积补充自监督单目深度估计

本篇论文提出了一个基于多帧深度估计的框架，使用连续的多帧约束不断优化单目深度估计，利用贝叶斯融合层进行多帧深度估计的迭代，同时不需要深度监督训练。实验结果表明，该方法在 KITTI 基准测试中，相较于单个帧或多个帧的无监督方法，取得了更好的性能。

May, 2023

MFuseNet：学习多视角融合的鲁棒深度估计

本研究提出了一种基于多视角视觉系统的方法，使用低成本单目 RGB 相机获得准确的深度估计，通过多张水平或垂直对齐的图像并利用新的启发式方法和鲁棒学习方法来融合多个代价体之间的数据以提高深度估计的性能，实验结果表明该方法优于传统的二帧立体匹配方法。

Aug, 2021

揭示深度：一种多模态融合框架用于挑战场景

本文提出了一种新颖的方法，通过学习框架，识别和整合主导的跨模态深度特征，独立计算粗略深度图，并使用置信度损失和多模态融合网络进行端到端的深度估计，从而在各种困难情景中展示了鲁棒的深度估计能力。

Feb, 2024

SurroundDepth：用于自监督的多摄像机深度估计的环绕视图纠缠

本文提出了一种名为 SurroundDepth 的新型深度估计方法，运用多摄像头技术以及跨视图变换器，实现了在自动驾驶中对深度地图的精准预测，且在多视角实现机体运动一致性，取得了 DDAD 和 nuScenes 两个数据集的最佳成绩。

Apr, 2022

用于自动驾驶的多视角三维物体检测网络

该论文研究了自动驾驶场景下高精度的 3D 物体检测问题。其提出了 Multi-View 3D networks（MV3D）框架，该框架采用多传感器融合技术，将 LIDAR 点云和 RGB 图像作为输入，并预测有方向的 3D 界限框。实验表明，该方法在 3D 定位和 3D 检测任务方面的表现优于现有技术约 25％和 30％，在 2D 检测中也表现出显著的技术优势。

Nov, 2016

在自我监督学习环境中混合使用立体和静态单眼深度估计

通过自监督学习和卷积神经网络，本文研究了自主机器人如何学习来提高其深度估算能力，并在实验中表明，即便在较低的置信区域，融合立体和单目估计可比仅使用立体视觉估计提供更可靠的深度地图，从而使立体视觉机器人可以更加可靠地实现自主导航。

Mar, 2018

多视图自适应融合网络用于三维物体检测

本文提出了一种基于多视角融合的 3D 目标检测网络，结合了激光雷达鸟瞰视角、激光雷达距离视角和相机视角图像，使用注意力机制和额外任务优化点特征和结构信息，有效地实现了多视角特征的适应性融合，该网络在 KITTI 3D 目标检测数据集上的表现令人满意。

Nov, 2020

自动驾驶中多视角传感器数据融合提升感知和预测

本文提出了一种利用多视角 LiDAR 返回和摄像头图像的终端到终端物体检测和轨迹预测方法，使用 Bird's-Eye View (BEV) 网络的状态 -of-the-art 融合历史 LiDAR 数据和高清地图的体素化特征来执行检测和预测任务。在此基础上，我们使用 LiDAR Range-View （RV）功能扩展了此模型，使用 LiDAR 原始信息的非量化表示。RV 特征图被投影到 BEV 中，并与计算自 LiDAR 和高清地图的 BEV 特征融合。最终输出检测和轨迹，这是一个单一的可训练终端到终端网络。在实际的无人驾驶车辆数据和公共 nuScenes 数据集上，所提出的多视角融合方法的表现都优于最先进的技术，并且增加了较少的计算成本。

Aug, 2020

单目相机全局一致深度动态场景新视角合成

本文提出了一种新的方法，可以从动态场景的一组图像中合成任意视角和时间的图像，通过单视图深度（DSV）和多视图立体深度（DMV）的结合，重新估计视角和时间下的一致性和深度信息，从而精确的合成真实感极强的虚拟视图。

Apr, 2020