超越图像：使用回声改善深度预测

CVPRMar, 2021

超越图像：使用回声改善深度预测

Beyond Image to Depth: Improving Depth Prediction using Echoes

Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma

TL;DR提出一种基于端到端深度学习的多模式融合技术，通过利用 RGB 图像、双耳回响和场景中不同物体的材料属性来改进音视频输入的场景深度估计，实验证明该方法在 Replica 数据集上比最先进的音视频深度预测方法提高了 28% 的 RMSE，并在 Matterport3D 上表现出了与竞争者相当的性能。

Abstract

We address the problem of estimating depth with multi modal audio visual data. Inspired by the ability of animals, such as bats and dolphins, to infer distance of objects with echolocation, some recent methods have utilized echoes for depth estimation. We propose an →

depth estimation multi modal fusion audio visual inputs end-to-end deep learning material properties

发现论文，激发创造

揭示深度：一种多模态融合框架用于挑战场景

本文提出了一种新颖的方法，通过学习框架，识别和整合主导的跨模态深度特征，独立计算粗略深度图，并使用置信度损失和多模态融合网络进行端到端的深度估计，从而在各种困难情景中展示了鲁棒的深度估计能力。

Feb, 2024

VisualEchoes: 通过回声定位进行空间图像表征学习

本研究探讨了生物声波定位能力中所包含的空间线索，并提出了一种基于交互学习的特征表示框架，改善图像深度估计、表面法线估计和视觉导航等多项需要空间推理的视觉任务，并展示所学习图像特征的应用效果比已有预训练更好。该研究打开了针对实体化代理的特征学习新途径，其中监督可以通过与物理世界的交互获得。

May, 2020

从单目深度图像进行目标检测和语义分割

本研究证明，在计算机视觉中，利用单目图像估计出深度信息与 RGB 图像结合能够显著提高目标检测和语义分割的精度。

Oct, 2016

基于深度学习的单目图像和视频深度估计方法：综述

该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法，包括输入输出模态、网络结构和学习方法的分类，历史里程碑，以及现有方法使用的流程、数据集和评估指标。

Jun, 2024

层次交叉感知的深度融合双耳声音生成

该研究旨在提高在手持设备上录制立体声音频的难度，通过借助深度图像等特征来实现对距离信息的编码，从而改善其在 AR/VR 等环境下的表现。

Aug, 2021

单目图像和稀疏雷达数据的深度估计

利用深度神经网络，通过融合单眼图像和雷达数据点，探索实现更准确的深度估计。我们对来自不同角度的 RGB 图像和雷达测量的融合进行了全面的研究，并提出了一种基于观察结果的有效解决方案。在 nuScenes 数据集上的实验表明，我们的方法优于现有的融合方法，同时我们还提供了详细的剖析研究以展示我们的方法中各组成部分的有效性。

Sep, 2020

室内单张图像深度估计中不同特征的贡献

通过在室内场景数据集中使用特征提取技术，本研究量化了单一形状、纹理、颜色和饱和度等因素对深度估计的相对贡献，发现边缘检测提取的物体形状在室内环境中的贡献显著大于其他因素，而其他特征也有不同程度的贡献。这些洞察将有助于优化深度估计模型，提高其准确性和鲁棒性，并扩大基于视觉的深度估计的实际应用。

Nov, 2023

基于图像深度重建的深度学习架构综述

本文综述了近五年来使用深度学习技术从单个或多个图像中估计深度的 100 多个关键性贡献，总结了最常用的深度重建流程及其优缺点，并讨论了其研究的未来。

Jun, 2019

传感器无关深度估计的深度提示

通过解耦输入模态（例如图像和深度），我们设计了一种新颖的深度提示模块来减轻测量偏差，提供绝对尺度深度图，并通过广泛的评估证明了其有效性。

May, 2024

单张图像深度估计训练

使用深度焦点提示为基础，基于点扩散函数卷积层的无监督学习深度估计方法能在多个数据集上优于其他无监督方法和与 KITTI 和 Make3D 数据集中的监督方法效果相当，并且与数据集无关.

Jan, 2020