上下文增强立体变换器
本文介绍了一种名为 STereo TRansformer (STTR) 的方法,采用序列到序列的对应关系角度来进行立体深度估计,使用位置信息和注意力机制来进行密集像素匹配,克服了固定视差范围的限制,识别遮挡区域和提供置信度估计,并在合成和真实数据集上取得了良好的结果。
Nov, 2020
本文介绍了一种称为 MVSTR 的网络,利用 Transformer 提取拥有全局上下文和三维一致性的密集特征,对于 Multi-View Stereo(MVS)可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题,提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块,并在实验中获得了最佳性能。
Dec, 2021
利用现代相机所配备的各种传感器记录图像的地理空间环境,将在已知摄像机拍摄地点的情况下,提出一种基于地理启用的方法,使用一个识别出的综合地面深度地图与相对应的俯瞰图像,将其融合在编码器 / 解码器风格的分割网络内,实现对深度估计的目的。结果表明,将地理上下文集成到深度估计模型中可显着降低误差。
Sep, 2021
本文介绍一种名为 MVSTER 的新型多视角立体重建方法,该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息,采用级联结构以构建更精细的深度估计,通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。
Apr, 2022
CTA-Depth 是一种用于多帧单目深度估计的网络,其采用多层关注增强模块与上下文感知时间关注 (CTA) 调整深度和姿态优化过程,以捕捉全局时间上下文关联并保持运动物体特征的一致性和估计完整性。特别地,该方法采用 LGE 模块来产生长程时间几何先验,并在三个基准数据集上取得了显着的改进。
May, 2023
利用 Surround-view Temporal Stereo 技术结合单眼深度算法实现深度学习,通过时间轴上的帧之间的几何对应来提高准确性,从而显著提高 3D 检测能力。
Aug, 2022
本研究提出一种双分支的 CA-ViT 方法,通过全局支路来捕捉拍摄对象的长距离移动和渐变,局部支路使用通道注意力机制来捕捉具有信息意义的局部细节,从而实现生成真实细节的无幽灵高动态范围成像。实验结果表明,该方法在质量和计算成本上均优于最先进的方法。
Aug, 2022
本文提出改进的基于 Transformer 的 Strided Transformer 架构,以简单有效地将冗余的 2D 姿势序列提升到单个 3D 姿势。通过给 Vanilla Transformer 编码器换成步幅卷积的方式,降低了序列的冗余性,同时设计了全 - 单监督方案来约束输出,从而在两个基准数据集上获得了最佳结果并减少了参数。
Mar, 2021
该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法,特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。
Mar, 2022