具有 Transformer 的多视角立体
本研究提出了 TransMVSNet,它是基于多视图立体视觉(MVS)中的特征匹配的探索而来的,利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务,并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明,该方法在多个基准数据集上取得了最优的性能。
Nov, 2021
本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示,同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法,以提高深度估计的准确性。实验证明,这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。
Dec, 2023
本文介绍一种名为 MVSTER 的新型多视角立体重建方法,该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息,采用级联结构以构建更精细的深度估计,通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。
Apr, 2022
近期基于学习的多视点立体(MVS)方法中,引入了具有注意机制的基于 Transformer 模型的最新进展;然而,现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究,导致深度估计能力有限。本文提出了 MVSFormer++ 方法,通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分,将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习,并采用不同的注意机制对特征编码器和代价体积正则化进行处理,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能,包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是,MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。
Jan, 2024
DeepMVS 是一种用于多视图立体重建的深度卷积神经网络 (ConvNet),它可以对任意数量的姿态图像进行处理以预测高质量的视差图,其有效的信息聚合方法和采用 VGG-19 网络的多层特征激活实现了优异的效果。
Apr, 2018
这篇论文提出了一种基于多视角变换器(MVT)的方法,将 3D 场景投影到多视角空间中,学习一种更为稳健的多模态表示形式,从而消除特定视角的依赖,并在实验中表现出比现有方法更好的性能。
Apr, 2022
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
Point-MVSNet 是用 point clouds 直接处理目标场景的深度学习网络,通过将 3D 几何先验和 2D 纹理信息融入特征增强的 point cloud 中,实现了在 multi-view stereo 中更高的精度、更高的计算效率和更大的灵活性。
Aug, 2019
本文提出了一种用于计算多视图深度图的端到端深度学习框架 (MVSNet),首先提取深度视觉图像特征,然后利用不同 iable homography 变形构建 3D 成本体积,并使用 3D 卷积对初始深度图进行规则化和回归,最终与参考图像相结合生成最终输出,其通过引入基于方差的成本度量来适应任意 N-view 输入, 其表现优于现有同类方法并能很好地泛化于室内室外数据。
Apr, 2018
DUSt3R 是一种新颖的范式,用于进行任意图像集合的密集和无约束立体三维重建,通过将成对的重建问题作为点图的回归来实现,进而实现单眼和双眼重建的统一,提供场景的三维模型和深度信息,并能够轻松恢复像素匹配、相对和绝对相机,DUSt3R 能够简化多种几何三维视觉任务。
Dec, 2023