MixFormer: 迭代混合注意力的端到端跟踪
本文提出了一种基于 transformers 的简单有效的追踪框架 MixFormer,通过 Mixed Attention Module 实现了特征提取和目标信息集成的同步建模,设计了两种类型的 MixFormer 追踪器,使用不同的预训练方法,提出了减少计算成本的不对称注意机制和有效的得分预测模块,并在包括 LaSOT,TrackingNet,VOT2020,GOT-10k,OTB100 和 UAV123 等七个追踪基准中创造了最新的性能标准。
Feb, 2023
本文提出了一种基于全 Transformer 结构的跟踪框架 MixFormerV2,通过引入四个特殊的预测 tokens,结合目标模板和搜索区域的 tokens,采用 Transformer 骨干网络进行跟踪预测,进而通过简单的 MLP heads 预测跟踪框和评估置信度得分,并提出了一种新的蒸馏模型的减少算法,包括密集到稀疏和深层到浅层的蒸馏,以进一步提高跟踪器性能。
May, 2023
本文提出了一种用于轻量级追踪的高效自适应混合注意力变压器架构,实现了对相关轻量级追踪策略的显著改进,达到了先进的性能,在多个数据集上运行时帧率较高,参数量较小。
Sep, 2023
本文提出了一种新的层次化提取和匹配变形器 MatchFormer 来提高局部特征匹配的效率和鲁棒性,该方法结合自注意力和跨注意力在多尺度特征的层次化架构上提高匹配鲁棒性,并在室内姿势评估、室外姿势评估、单应性评估和图像匹配检测四个基准测试中均取得 state-of-the-art 的结果。
Mar, 2022
我们提出了一种新的变换器解码器 U-MixFormer,基于 U-Net 结构设计的,用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询,我们的方法与以前的变换器方法有所不同。此外,我们创新地混合来自各个编码器和解码器阶段的分层特征图,形成一个统一的键和值表示,从而产生我们独特的混合注意模块。大量实验证明,U-MixFormer 在各种配置上表现出色,并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。
Dec, 2023
TrackFormer 是基于编码器 - 解码器变压器架构的端到端可训练的多目标追踪方法,利用注意力实现帧到帧的数据关联,以查询的形式自回归地跟踪现有轨迹并初始化新轨迹,能够实现目前最先进的多目标跟踪的性能。
Jan, 2021
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
本论文提出了一种名为 MixFormer 的方法,将局部窗口自注意力与深度可分卷积相结合,跨窗口连接建模以扩大感受野,并在通道和空间维度上提供互补线索,从而实现更好的特征混合。在图像分类方面,MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO,ADE20k 和 LVIS 的 5 项密集预测任务中,其下游任务的性能也明显优于其他替代方案。
Apr, 2022
本文提出了一种新的有效的锚匹配转换器(AMatFormer)用于特征匹配问题,以在一些锚点特征上进行自 / 交叉注意,进而学习所有基本特征的表示,并采用共享的 FFN 模块将两个图像的特征嵌入公共域中,以学习匹配问题的共识特征表示,在几项基准实验中证明了 AMatFormer 匹配方法的有效性和效率。
May, 2023
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021