Mansformer：用于图像去模糊及其它任务的高效混合注意力转换器

Apr, 2024

Mansformer：用于图像去模糊及其它任务的高效混合注意力转换器

Mansformer: Efficient Transformer of Mixed Attention for Image Deblurring and Beyond

Pin-Hung Kuo, Jinshan Pan, Shao-Yi Chien, Ming-Hsuan Yang

TL;DR我们提出了 Mansformer，它是一种结合了多种自注意力、门控和多层感知的混合加权 Transformer，通过对张量形状和维度进行精心调整，将典型的二次复杂度自注意力分解成四次线性复杂度操作，并利用类似 Squeeze-and-Excitation Networks 的架构实现了这些不同类型自注意力的自适应融合，通过提出的门控 - dconv MLP 将两阶段的 Transformer 设计合并为一阶段，主要用于图像去模糊，经过广泛的定量和定性评估，表明该方法在远远超过简单去模糊的最先进方法方面表现出色，源代码和训练模型将提供给公众。

Abstract

transformer has made an enormous success in natural language processing and high-level vision over the past few years. However, the complexity of self-attention is quadratic to the image size, which makes it infe

transformer mansformer self-attention image deblurring squeeze-and-excitation networks

发现论文，激发创造

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

May, 2022

高分辨率 GAN 的改进变压器

本文介绍了将多维块自注意力与多层感知机结合的 Transformer 模型 HiT，该模型在高清图像生成领域的表现优于传统基于卷积的方法。

Jun, 2021

MB-TaylorFormer：基于 Taylor 公式扩展的多分支高效 Transformer 用于图像去雾

近年来，Transformer 网络开始取代纯卷积神经网络在计算机视觉领域的应用，但是其二次计算复杂度的 softmax-attention 限制了高分辨率图像去雾任务的广泛应用。因此，我们提出了一种新的 Transformer 变体，应用泰勒展开逼近 softmax-attention，实现了线性计算复杂度，并引入了多尺度注意力细化模块和多分支架构以及多尺度补丁嵌入方法进一步改进 Transformer 的性能。我们的模型名为 MB-TaylorFormer，在补丁嵌入阶段可以更灵活地嵌入粗糙到细粒度的特征，并以有限的计算成本捕捉远距离像素之间的相互作用。实验证明，MB-TaylorFormer 在多个去雾基准上取得了最先进的性能，并具有轻量级的计算负担。源代码和预训练模型可在此 https URL 获得。

Aug, 2023

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

图像变换器

在这项工作中，我们将基于自我关注机制的模型架构 ——Transformer 模型，泛化到图像生成的序列建模问题上，并通过限制自我关注机制只关注局部邻域，显著提高了模型能够实际处理的图像大小，同时在图像生成方面显著优于当前最优秀的状态，提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77，同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中，我们发现，我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。

Feb, 2018

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

少即是多：在视觉 Transformer 网络中降低注意力

我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer（LIT）来提高特征提取效率，并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块，以达到在图像分类、物体检测和实例分割等图像识别任务中具有很好的性能。

May, 2021

图像超分辨率变换器中激活更多像素

为了更好的利用 Transformer 的潜力以进行图片重构，在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外，还引入了重叠交叉注意力模块并采用相同任务的预训练策略，拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。

May, 2022

医学变压器：门控轴向注意力在医学图像分割中的应用

本文探讨了 Transformer 网络架构在医学图像分割任务中的可行性，并提出了一种 Gated Axial-Attention 模型和 Local-Global 训练策略以提高模型性能。实验表明，在三组不同的医学图像数据集上，该 Medical Transformer 模型优于卷积和其他相关的 Transformer-based 架构。

Feb, 2021

多维 Transformer 中的轴向注意力

Axial Transformers 是一种基于自注意力的自回归模型，可用于生成高维张量数据，具有全表达能力和易于实现的特点，并在标准生成建模基准测试中取得了最新的成果。

Dec, 2019