上下文增强立体变换器

ECCVOct, 2022

Context-Enhanced Stereo Transformer

Weiyu Guo, Zhaoshuo Li, Yongkui Yang, Zheng Wang, Russell H. Taylor...

TL;DR该研究提出了一种改进了现有方法的 Context Enhanced Path (CEP) 来捕捉长距离的全局信息，从而提高立体深度估计的泛化和鲁棒性；并将其应用在 Stereo Transformer 中构建了新的立体深度估计模型，Context Enhanced Stereo Transformer (CSTR)，实验证明 CEP 成功捕捉了长距离信息，使 CSTR 的表现优于之前的立体深度估计方法。

Abstract

stereo depth estimation is of great interest for computer vision research. However, existing methods struggles to generalize and predict reliably in hazardous regions, such as large uniform regions. To overcome these limitations, we propose →

stereo depth estimation context enhanced path context enhanced stereo transformer long-range global information robustness

发现论文，激发创造

使用 Transformer 从序列到序列视角重新思考立体深度估计

本文介绍了一种名为 STereo TRansformer (STTR) 的方法，采用序列到序列的对应关系角度来进行立体深度估计，使用位置信息和注意力机制来进行密集像素匹配，克服了固定视差范围的限制，识别遮挡区域和提供置信度估计，并在合成和真实数据集上取得了良好的结果。

Nov, 2020

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

使用极线时空网络的多视角深度估计

本文提出了一种针对多视角深度估计的新方法，使用 Epipolar 时空变换器和混合专家模型，实现与 SOTA 方法相比更高的估计精度和速度。

Nov, 2020

利用地理空间上下文增强深度估计

利用现代相机所配备的各种传感器记录图像的地理空间环境，将在已知摄像机拍摄地点的情况下，提出一种基于地理启用的方法，使用一个识别出的综合地面深度地图与相对应的俯瞰图像，将其融合在编码器 / 解码器风格的分割网络内，实现对深度估计的目的。结果表明，将地理上下文集成到深度估计模型中可显着降低误差。

Sep, 2021

MVSTER：高效的多视角立体匹配的基于极线变换机制的转换器

本文介绍一种名为 MVSTER 的新型多视角立体重建方法，该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息，采用级联结构以构建更精细的深度估计，通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。

Apr, 2022

通过上下文感知的时间关注学习动态环境下的单目深度

CTA-Depth 是一种用于多帧单目深度估计的网络，其采用多层关注增强模块与上下文感知时间关注 (CTA) 调整深度和姿态优化过程，以捕捉全局时间上下文关联并保持运动物体特征的一致性和估计完整性。特别地，该方法采用 LGE 模块来产生长程时间几何先验，并在三个基准数据集上取得了显着的改进。

May, 2023

STS：多视角三维检测的全景时空立体视觉

利用 Surround-view Temporal Stereo 技术结合单眼深度算法实现深度学习，通过时间轴上的帧之间的几何对应来提高准确性，从而显著提高 3D 检测能力。

Aug, 2022

有上下文感知的 Transformer 技术的无鬼影高动态范围成像

本研究提出一种双分支的 CA-ViT 方法，通过全局支路来捕捉拍摄对象的长距离移动和渐变，局部支路使用通道注意力机制来捕捉具有信息意义的局部细节，从而实现生成真实细节的无幽灵高动态范围成像。实验结果表明，该方法在质量和计算成本上均优于最先进的方法。

Aug, 2022

基于步长变换器的时序上下文利用在三维人体姿态估计中的应用

本文提出改进的基于 Transformer 的 Strided Transformer 架构，以简单有效地将冗余的 2D 姿势序列提升到单个 3D 姿势。通过给 Vanilla Transformer 编码器换成步幅卷积的方式，降低了序列的冗余性，同时设计了全 - 单监督方案来约束输出，从而在两个基准数据集上获得了最佳结果并减少了参数。

Mar, 2021

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022