- 挖掘基于不确定性的伪标签以实现稳健的立体匹配
基于不确定性估计的稳健立体匹配算法通过适应性调整离散搜索空间来平衡视差分布,借助基于不确定性的伪标签方法解决有限标签数据的限制,并在多领域、迁移学习和联合泛化上取得了强大的性能,在 Robust Vision Challenge 2020 - 重新思考用于立体匹配网络的交叉熵损失
本文提出了一种新的自适应多模交叉熵损失函数,以促进网络为边缘和非边缘像素生成不同的分布模式,并优化推理阶段的视差估计器来减轻边缘处的伪影和对齐偏差,提高了经典立体匹配模型的性能。其中 GANet 在 KITTI 2015 和 2012 基准 - StereoVAE:利用嵌入式 GPU 实现轻量级立体匹配系统
使用嵌入式 GPU 实现的简约的立体匹配系统,通过基于变分自动编码器的小型神经网络构建优化初步视差图的混合结构,实现了传统算法和神经网络结合,同时提高了匹配准确度和实时性。
- CVPR迭代几何编码体积用于立体匹配
本文提出了一种新的深度网络结构 IGEV-Stereo,其利用综合几何编码体来编码几何、上下文信息以及本地匹配细节,通过迭代地索引来更新视差图,同时利用 GEV 来回归卷积 GRU 的精确起点,以加速收敛。IGEV-Stereo 在 KIT - 统一流场、立体和深度估计
本文提出了一种统一的模型形式和模型,可以用于光流、矫正立体匹配和从定位图像中估计无校准立体深度。该模型使用 Transformer 中的交叉注意力机制实现判别特征表示,并在允许跨任务转移的同时,在多个数据集上实现或超过现有最新方法的性能。
- 基于 Transformer 的深度腹腔镜立体匹配
本文提出了一种新的混合深度立体匹配框架(HybridStereoNet),使用 Transformer 实现特征表示学习,并结合 CNN 用于代价汇聚,旨在提高立体视觉匹配精度和泛化能力。实验结果表明,与其他选项相比,本文方法收敛更快,准确 - EASNet: 搜索弹性和精确的立体匹配网络结构
提出了一种适用于不同计算环境下实现不同 3D 架构的弹性和准确的立体匹配网络 (EASNet),并在 Scene Flow 和 MPI Sintel 数据集上证明其优于当前最先进的面向任务过程的 SOTA 架构。
- CVPRRGB - 多光谱匹配:数据集、学习方法、评估
本研究旨在解决颜色图像和多光谱图像之间分辨率差异大的问题,提出了一种深度学习架构,并利用自监督学习以及 RGB-RGB 匹配任务的知识来实现跨模态匹配。通过在室内环境下拍摄 13 个场景的图像对,并标注了 34 个具有高分辨率标签的图像对, - WHU-Stereo:高分辨率卫星图像立体匹配的挑战基准
本研究创建了一份包含超过 1700 个成对高分辨率遥感卫星图像的 WHU-Stereo 数据集,以促进深度学习网络的立体匹配训练和测试,并探究其在遥感应用中的潜力。实验证明,该数据集的性能可与现有的立体匹配数据集可比,并且深度学习模型的性能 - CVPR分辨率不对称立体视觉的自适应对应关系
本研究提出了一种基于无监督学习的视差匹配方法,通过特征度量一致性而非图像度量一致性来解决不同分辨率图像之间的挑战,并引入了一种自我增强的策略来优化特征提取器,在模拟数据集和真实世界数据集上,取得了优于现有解决方案的表现。
- CVPR通过级联循环适应性相关网络实现实用立体匹配
本研究利用卷积神经网络等技术,提出一套创新方案解决智能手机等消费级设备拍摄的真实图像对中,提取深度信息的问题,并在 Middlebury 和 ETH3D 基准测试上表现出高准确性和高质量的细节。
- CVPRChiTransformer:从线索到可靠的立体视觉
提出了一种灵感来源于视觉系统的新型双目视觉深度估计方法,使用了 Vision Transformer(ViT)和条件校正的双模式交互设计(ChiTransformer)。实验表明,与现有技术相比,该方法在自监督立体匹配方面具有显著优势,可用 - CVPR准确高效的立体匹配中的注意力串联体积
本论文提出了一种新颖的代价体积构建方法,其通过生成来自相关线索的注意力权重来抑制冗余信息并增强匹配相关信息,并且还设计了一种基于 ACV 的高精度网络(ACVNet),在多个基准测试上都取得了最先进的性能。
- CVPRITSA:一种信息论方法实现自动避免快捷方式和领域泛化在立体匹配网络中
本文探讨了在合成数据上训练的现有立体匹配网络无法泛化到更具挑战性的真实数据领域的原因,并且提出了一种基于信息理论的避免 shortcut 的方法来消除合成数据人为缺陷对特征表示学习的影响,从而使得该方法可以学习到具有鲁棒性的特征,在挑战性的 - ICCV学习符号距离场进行多视角表面重建
本研究提出了一种基于神经隐式表达并结合立体匹配和特征保持的新型表面重建框架,使用有符号距离场和表面光场直接表示场景几何及外观,并通过优化多视角特征一致性和渲染图像的保真度来精细化表示几何形状,提高了复杂场景拓扑的重建鲁棒性,实验结果表明相较 - MobileStereoNet:面向立体匹配的轻量级深度神经网络
该研究提出了两种轻量级的立体视觉模型,采用 2D 和 3D 卷积进行编解码。研究表明,这两种模型有效地减少了计算开销,同时保持了准确性。
- 相关激励:通过引导代价体积激发实时立体匹配
通过引导代价体增加通道激励以及使用前 k 项选择,本文构建的 CoEx 模型将 3D 卷积与空间变化耦合起来,提高了立体匹配的性能。在 SceneFlow、KITTI 2012 和 KITTI 2015 数据集上的实验结果证明了本模型的有效 - MFuseNet:学习多视角融合的鲁棒深度估计
本研究提出了一种基于多视角视觉系统的方法, 使用低成本单目 RGB 相机获得准确的深度估计, 通过多张水平或垂直对齐的图像并利用新的启发式方法和鲁棒学习方法来融合多个代价体之间的数据以提高深度估计的性能,实验结果表明该方法优于传统的二帧立体 - CVPR立体匹配分解模型
本文提出了一种分解模型来解决在分辨率提高时计算成本(时间和内存成本)过高的立体匹配问题,该模型仅在很低的分辨率下运行密集匹配,使用不同的高分辨率下的稀疏匹配来逐步恢复失去细节的视差,并通过一个有遮挡感知掩码迭代地融合相邻尺度上的稀疏和密集视 - CVPRCFNet: 基于级联和融合代价体积的鲁棒立体匹配
该论文提出了一种基于级联和融合代价体的深度学习模型 CFNet,以解决大规模标注数据集的深度立体匹配模型的泛化能力问题,通过融合多个低分辨率的密集代价体以及逐步缩小视差搜索空间的方式,建立起一套定量的不确定性估计体系,实现了对跨数据集间的泛