ParaFormer: 并行注意力变换器用于高效特征匹配
本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性,该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性,并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。
Mar, 2022
该研究提出了 ParFormer 作为一种改进的 transformer 体系结构,通过将不同的 token mixer 集成到一个阶段中,从而提高特征提取能力。与传统的窗口移动方法不同,结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块,我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明,我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善,提高了 0.5%的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外,我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说,我们的模型变种,参数为 11M,23M 和 34M 时,分别达到了 80.4%,82.1%和 83.1%的得分。
Mar, 2024
本文介绍了基于 Transformer 网络的图像语义匹配学习器 TransforMatcher,通过全局匹配 - 匹配注意力和动态细化,利用轻量级注意力架构实现匹配处理和基于多层次特征的多通道相关图的精细化处理,以达到确切的匹配定位和 Semantic Learning 的效果
May, 2022
本文提出了一种新的有效的锚匹配转换器(AMatFormer)用于特征匹配问题,以在一些锚点特征上进行自 / 交叉注意,进而学习所有基本特征的表示,并采用共享的 FFN 模块将两个图像的特征嵌入公共域中,以学习匹配问题的共识特征表示,在几项基准实验中证明了 AMatFormer 匹配方法的有效性和效率。
May, 2023
本研究提出了一种纯 transformer 的多任务行人属性识别网络,名为 PARFormer,其中包含 4 个模块:特征提取模块、特征处理模块、视点感知模块和属性识别模块,实现了竞争性的性能表现,并强调全局视角的重要性。
Apr, 2023
本文提出了一种基于 Transformer 的 3D 视觉应用中的线性注意力机制,通过全局和局部信息聚合进行关键点匹配,同时提出了联合学习来简化和加速特征匹配,最终在几个基准测试中取得了具有竞争力的性能。
Apr, 2022
本文提出了基于变换器的半密集匹配方法,引入了基于仿射的局部注意力和选择性融合来模拟跨视图变形,并强调了损失设计中的空间平滑性的重要性,通过这些增强方法,我们的网络在不同设置下表现出很强的匹配能力。
May, 2024
在本文中,我们提出了一种名为 AAUformer 的简单但高效的网络,通过在双视图和单视图中分别平衡外极线的影响,以实现出色的泛化性能。我们的模型通过引入窗口自注意力和多尺度交替注意力骨干网络,实现了像素级单视图的局部语义特征的解放和难以区分区域的粗细匹配过程,并在各种数据集上进行了比较和消融研究,证明了其在场景流数据集上达到了最先进的效果,并在 KITTI 2015 数据集上具有竞争力的微调性能。此外,在合成和实际数据集上的交叉泛化实验中,我们的模型优于几个最先进的方法。
Aug, 2023
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。
Oct, 2023
提出了一种基于 Transformer 的 ASpanFormer 检测器自由匹配器,采用分层注意力结构,能够在全局和本地粒度上捕捉上下文,并具有自适应调整注意跨度的能力,以此来实现在匹配任务中对高相关性像素的细粒度关注。
Aug, 2022