Inception Transformer
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
本研究提出了一种名为 High-Resolution Transformer 的方法,用于学习密集预测任务中的高分辨率表示, 并取得了在人体姿态估计和语义分割任务中较好的结果。
Oct, 2021
本文介绍了一种轻量级的语义分割架构,名为自适应频率变换器。它采用并行架构,使用原型表示作为可学习的局部描述来替代解码器,并在高分辨率特征上保留了丰富的图像语义。我们还使用异构运算符(CNN 和 Vision Transformer)进行像素嵌入和原型表示,以进一步节省计算成本。
Jan, 2023
本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构,该架构的表现优于其他转换器表示形式,特别是在图像识别任务中。
Apr, 2023
FuseFormer 是一种针对视频修复任务的 Transformer 模型,通过使用细粒度特征融合的新型软分割和软组合操作,实现了更加有效的特征传播和内容合成,优于现有技术方法。
Sep, 2021
本论文提出了一种名为 MixFormer 的方法,将局部窗口自注意力与深度可分卷积相结合,跨窗口连接建模以扩大感受野,并在通道和空间维度上提供互补线索,从而实现更好的特征混合。在图像分类方面,MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO,ADE20k 和 LVIS 的 5 项密集预测任务中,其下游任务的性能也明显优于其他替代方案。
Apr, 2022
本文提出了一种新型的 Transformer 架构 DualFormer 用于视频识别,此架构可以有效地处理空间 - 时间关注,能够捕捉短距离和长距离的时空依赖关系,并通过本地 - 全局层次划分策略显著减少注意力计算中的关键值个数,从而提高效率并在五个视频基准测试上验证了 DualFormer 的优越性能。
Dec, 2021
本文提出了一种名为 AutoFormer 的新一代架构搜索框架,该框架是针对视觉分类和检测任务中 transformer 网络设计的,通过优化 supernet 让数千个子网络获得很好的训练,最终得到的 AutoFormers 模型在 ImageNet 数据集上取得了比 ViT 和 DeiT 更高的性能,且具有良好的迁移性能和蒸馏实验性能。
Jul, 2021
本文基于 MetaFormer 架构探索了不同的 token mixer 的组合方式,取得了较高的图像分类准确率,同时也提出了新的激活函数 StarReLU。
Oct, 2022
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021