SaccadeCam：自适应的视觉注意力在单目深度感知中的应用

ICCVMar, 2021

SaccadeCam：自适应的视觉注意力在单目深度感知中的应用

SaccadeCam: Adaptive Visual Attention for Monocular Depth Sensing

Brevin Tilmon, Sanjeev J. Koppal

TL;DR本文提出了一种名为 SaccadeCam 的方法，通过自适应地分配分辨率到场景中的兴趣区域，实现单目深度估计的端到端学习。该算法将充分考虑物体在视觉系统中的感知特性。

Abstract

Most monocular depth sensing methods use conventionally captured images that are created without considering scene content. In contrast, animal eyes have fast mechanical motions, called saccades, that control how

monocular depth sensing saccades fovea adaptive resolution end-to-end learning

发现论文，激发创造

关注和对比学习的联合深度和运动场估计

通过一种自监督学习框架，提出一种基于动态关注模块的两阶段投影管道，以明确解耦相机自我运动和物体运动，并提出了一种基于对比采样一致性的物体运动场估计方法，该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。

Oct, 2021

使用深度注意力体指导单目深度估计

本文提出通过深度注意力体加入非局部共面性约束来引导深度估计，从而在室内环境中取得最先进的深度估计结果。

Apr, 2020

通过上下文感知的时间关注学习动态环境下的单目深度

CTA-Depth 是一种用于多帧单目深度估计的网络，其采用多层关注增强模块与上下文感知时间关注 (CTA) 调整深度和姿态优化过程，以捕捉全局时间上下文关联并保持运动物体特征的一致性和估计完整性。特别地，该方法采用 LGE 模块来产生长程时间几何先验，并在三个基准数据集上取得了显着的改进。

May, 2023

时间机会主义者：自监督多帧单目深度

提出 ManyDepth，一种自适应的、可以在测试时间利用序列信息的深度估计方法，通过深度自监督训练基于端到端代价体系积攒的方法，鼓励网络忽略不可靠的代价体以及针对静态相机场景的增强方案。实验证明此方法在 KITTI 和 Cityscapes 上表现优于其他单帧和多帧的自监督基线模型。

Apr, 2021

EGA-Depth: 自监督多摄像头深度估计的高效引导注意力

本研究提出了一种新颖的自我学习多摄像机深度估计引导 - 注意力结构 EGA-Depth，可在自动驾驶中取得更好的效果，实现高效和准确的深度估计。

Apr, 2023

视频深度一致性估计

通过利用传统的运动结构恢复来建立视频中像素的几何约束，使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络，我们给出了一种用于重建密集、几何一致深度的算法。测试时，我们对这个网络进行微调，以满足特定输入视频的几何约束，同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证，我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。

Apr, 2020

深度自适应计算策略用于高效视觉跟踪

本研究提出了一种深度自适应的卷积 Siamese 网络，使用参数门控函数控制卷积的深度以平衡跟踪精度和计算成本，在 VOT2016 基准测试上取得了可比较的精度。同时，对比传统的固定结构神经网络，在给定计算成本下取得了更高的精度，该框架可以在卷积神经网络的其他任务中使用，并使运行时的速度与准确性交换。

Jan, 2018

基于隐式线索的深度估计自监督联合学习框架

本研究提出了一种利用单目和立体相机视频中的连续帧进行深度估计的自监督联合学习框架，其中使用了隐式深度线索提取器来利用动态和静态线索产生有用的深度建议，并通过引入高维注意力模块来提取清晰的全局变换。实验证明，所提出的框架在 KITTI 和 Make3D 数据集上优于现有技术。

Jun, 2020

动态场景下的无监督单目深度学习

本研究提出一种方法，利用单眼光度一致性为唯一的监督，联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计，通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化，有效提高了单眼深度预测模型的准确性。

Oct, 2020

视频场景全面理解的精简语义

本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议，能够同时学习单目摄像机所需的几何、运动和语义信息，从而实现对整个场景的全面识别。实验结果表明，该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现，并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。

Mar, 2020