MatteFormer: 基于先验 Token 的 Transformer 图像抠图
这篇文章提出了一种基于 Transformer 的网络 ——TransMatting,能够模拟具有大感受野的透明对象。文章重新设计了 trimap,使用三个可学习的三元标记,以引入高级语义特征到自注意机制中。作者还使用一个小型卷积网络来利用全局特征和非背景掩模,指导从编码器到解码器的多尺度特征传播,以维护透明对象的纹理结构。此外,作者还创建了一个高分辨率的透明对象抠图数据集。实验表明,与当前最先进的方法相比,作者提出的方法具有显著的优越性。
Aug, 2022
我们提出了 EFormer 方法,用于增强模型对语义和轮廓特征的注意力,特别是后者,通过建立语义和轮廓探测器 (SCD) 来准确捕捉它们的分布,最终通过融合这两种特征生成预测的肖像 alpha matte。实验表明,EFormer 方法在肖像抠图任务中优于之前的方法。
Aug, 2023
本文提出了一种基于 transformers 的简单有效的追踪框架 MixFormer,通过 Mixed Attention Module 实现了特征提取和目标信息集成的同步建模,设计了两种类型的 MixFormer 追踪器,使用不同的预训练方法,提出了减少计算成本的不对称注意机制和有效的得分预测模块,并在包括 LaSOT,TrackingNet,VOT2020,GOT-10k,OTB100 和 UAV123 等七个追踪基准中创造了最新的性能标准。
Feb, 2023
使用 transformers 建立了一种稳健的跟踪框架 MixFormer,采用混合注意力模块(MAM)实现了特征提取和目标信息的同步建模,同时在 LaSOT、TrackingNet、VOT2020、GOT-10k 和 UAV123 等五个基准测试数据集上取得了最新的最高成功率和 EAO 评分。
Mar, 2022
该研究提出了 ParFormer 作为一种改进的 transformer 体系结构,通过将不同的 token mixer 集成到一个阶段中,从而提高特征提取能力。与传统的窗口移动方法不同,结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块,我们提出了 Enhance Patch Embedding for Token Mixer (CEPTM) 来改善 token mixer 的提取能力。全面的评估结果表明,我们的 ParFormer 在图像分类和目标识别等多个复杂任务中表现优于基于 CNN 和最先进的 transformer 的架构。提出的 CEPTM 在使用 Identity Mapping Token Mixer 时也对整体 MetaFormer 体系结构有所改善,提高了 0.5%的准确性。ParFormer 模型在准确性方面优于纯卷积模型和 transformer 模型的 ConvNeXt 和 Swin Transformer。此外,我们的模型在 ImageNet-1K 分类测试中取得了领先的混合 transformer 模型达到了有竞争力的 Top-1 得分。具体来说,我们的模型变种,参数为 11M,23M 和 34M 时,分别达到了 80.4%,82.1%和 83.1%的得分。
Mar, 2024
本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性,该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性,并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。
Mar, 2022
本文介绍了一种基于掩模驱动 Transformer 的方法,通过使用噪声原始掩模进行训练和获取更一致的优化目标来提高 Mask2Former 的掩模注意力在图像分割中的表现,实验结果表明,该方法可显著提升实例分割、全景分割和语义分割的精度,并且训练速度更快,不会在推断阶段引入额外的计算。
Mar, 2023
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式,取得了较高的图像分类准确率,同时也提出了新的激活函数 StarReLU。
Oct, 2022
本研究提出了一种名为 TopFormer 的移动友好的架构,该架构以不同尺度的 Token 作为输入,产生具有尺度感知的语义特征,并将这些特征注入到相应的 Token 中以增强表示能力,该方法在多个语义分割数据集上明显优于 CNN 和 ViT 网络,并在 ARM 移动设备上以较低的延迟实现了比 MobileNetV3 更高的平均交并比精度,同时,TopFormer 的微型版本可以在 ARM 移动设备上实现实时推断。
Apr, 2022