ChiTransformer：从线索到可靠的立体视觉

CVPRMar, 2022

ChiTransformer：从线索到可靠的立体视觉

ChiTransformer:Towards Reliable Stereo from Cues

Qing Su, Shihao Ji

TL;DR提出了一种灵感来源于视觉系统的新型双目视觉深度估计方法，使用了 Vision Transformer（ViT）和条件校正的双模式交互设计（ChiTransformer）。实验表明，与现有技术相比，该方法在自监督立体匹配方面具有显著优势，可用于矫正和非矩形图像。

Abstract

Current stereo matching techniques are challenged by restricted searching space, occluded regions and sheer size. While single image depth estimation is spared from these challenges and can achieve satisfactory r

stereo matching depth estimation self-supervised vit optics

发现论文，激发创造

CaFNet: 一个基于置信度的雷达摄像头深度估计框架

该研究介绍了一种两阶段、端到端可训练的自信感知融合网络 (CaFNet)，用于通过将 RGB 图像与稀疏且含噪的雷达点云数据相结合，进行密集的深度估计，并通过滤除雷达噪声，提高深度图的可靠性。在 nuScenes 数据集上进行的评估表明，该方法在平均绝对误差 (MAE) 和均方根误差 (RMSE) 方面的性能优于当前领先模型 3.2% 和 2.7%。

Jun, 2024

基于深度学习的单目图像和视频深度估计方法：综述

该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法，包括输入输出模态、网络结构和学习方法的分类，历史里程碑，以及现有方法使用的流程、数据集和评估指标。

Jun, 2024

双视：几何引导的深度估计

我们的方法通过在网络中添加最新的 3D 几何数据作为额外输入，结合之前的几何提示，利用深度和 3D 场景重建领域中的先前工作，实现了与实时交互速度相比达到最先进的深度估计和场景重建。

Jun, 2024

基于线性度量的聚类算法 LINSCAN

LINSCAN 是一种新的算法，通过利用 DBSCAN 和 OPTICS 的优势，将点嵌入成近似其局部邻域的正态分布，并利用从 Kullback Leibler 散度派生的距离函数，以检测和区分在空间上密集但具有正交协方差的线性聚类，我们演示了如何将 LINSCAN 应用于地震数据，识别出活动断层，包括交叉断层，并确定它们的方向。最后，我们讨论了 DBSCAN 和 OPTICS 的扩展算法必须具备的性质，以保持这些算法的稳定性优势。

Jun, 2024

SiT: 对称不变 Transformer 在强化学习中的泛化

一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究，使用 Symmetry-Invariant Transformer (SiT) 扩展 Vision Transformer (ViT) 的方法在 MiniGrid、Procgen RL 基准测试上展示了优于 ViTs 的泛化能力，并在 Atari 100k 和 CIFAR10 上体现了更高的样本效率。

Jun, 2024

深度无处不在：通过透视蒸馏和无标签数据增强提升 360 度单目深度估计

360 度图像的深度估计是虚拟现实、自主导航和沉浸式媒体应用中至关重要的，本研究提出了一种使用未标记 360 度数据的深度估计框架，通过六面立方体投影技术生成伪标签来高效标注 360 度图像的深度，并在深度估计的准确度上展示了显著改进，特别是在零样本情况下。

Jun, 2024

矫正迭代视差用于立体匹配

基于成本体积的不确定性估计（UEC）方法利用图像对中的成本体积的丰富相似性信息，以低计算成本实现了竞争性的性能，并且提出了两种不确定性辅助视差估计方法，UDR 和 UDC，优化了迭代方法的视差更新过程，并且通过视差矫正损失显著提高了精度，最终提出了 DR-Stereo，一种高性能的立体架构。实验结果表明 DR-Stereo 在视差估计性能上具有很强的竞争力。

Jun, 2024

DurLAR：高保真 128 通道激光雷达数据集，提供全景环境光和反射图像，用于多模态自动驾驶应用

DurLAR 是一个高保真度的 128 通道 3D LiDAR 数据集，具有全景环境（近红外）和反射率图像，用于自动驾驶应用的深度估计的样本基准任务，提供了超过以前的基准的分辨率，在 DurLAR 中，通过使用高分辨率但稀疏的真场景深度信息，我们提出了一种新的联合监督 / 自监督损失函数。我们在 DurLAR 数据集、KITTI 基准和 Cityscapes 数据集上进行性能比较，评估结果显示，在 DurLAR 中使用联合监督和自监督损失项，通过优越的真实分辨率和可用性，提高了领先的当代单目深度估计方法的定量和定性性能（RMSE = 3.639，Sq Rel = 0.936）。

Jun, 2024

回归到颜色：学习深度到特定颜色转换用于无监督深度估计

使用虚拟引擎生成密集深度图，通过训练真实世界数据的模型来处理合成颜色与真实世界颜色的差异，从而在复杂和不确定的环境中实现无监督单目深度估计任务的性能提升。

Jun, 2024

PatchRefiner: 利用合成数据进行真实领域高分辨率单目度量深度估计

PatchRefiner 是一个高级框架，用于处理高分辨率实际领域输入的度量单图深度估计。通过使用瓷砖分割方法，采用了细节与尺度解耦的损失函数并结合合成数据，PatchRefiner 在深度估计方面取得了显著的性能提升，大幅超过了现有基准，在真实世界数据集上展示了细节准确性和尺度估计的改进效果。

Jun, 2024