透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

ICMLMay, 2022

透过凸优化解释注意力：关于视觉 Transformer 的分析和解读

Unraveling Attention via Convex Duality: Analysis and Interpretations of Vision Transformers

Arda Sahiner, Tolga Ergen, Batu Ozturkler, John Pauly, Morteza Mardani...

TL;DR本文通过凸对偶性的视角分析了自我注意力及其替代方案的基础归纳偏差问题，并为非线性点积自我注意力和替代机制提出了有解释性且可全局最优求解的等效有限维凸问题。通过实验证明，与现有的 MLP 或线性 heuads 相比，自我注意网络的偏差对于 CIFAR-100 分类任务具有吸引力。

Abstract

vision transformers using self-attention or its proposed alternatives have demonstrated promising results in many image related tasks. However, the underpinning inductive bias of attention is not well understood.

vision transformers self-attention convex duality block nuclear-norm regularization cifar-100 classification

发现论文，激发创造

凸化 Transformer：改进 Transformer 网络的优化和理解

论文研究了 Transformer 网络模型训练的问题，并提出了一种新的凸分析方法来解决这个问题，进而提供了这些网络模型的理论解释以及性能优化方法。

Nov, 2022

Mansformer：用于图像去模糊及其它任务的高效混合注意力转换器

我们提出了 Mansformer，它是一种结合了多种自注意力、门控和多层感知的混合加权 Transformer，通过对张量形状和维度进行精心调整，将典型的二次复杂度自注意力分解成四次线性复杂度操作，并利用类似 Squeeze-and-Excitation Networks 的架构实现了这些不同类型自注意力的自适应融合，通过提出的门控 - dconv MLP 将两阶段的 Transformer 设计合并为一阶段，主要用于图像去模糊，经过广泛的定量和定性评估，表明该方法在远远超过简单去模糊的最先进方法方面表现出色，源代码和训练模型将提供给公众。

Apr, 2024

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

Transformer 和神经网络的原始 - 对偶框架

自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键，本研究提出了一种基于支持向量回归问题的自注意力构建方法，推导出常用的注意力层，并提出了两种新型注意力机制：1) 批正则注意力，2) 缩放头注意力，通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。

Jun, 2024

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020

SOFT: 线性复杂度的无 Softmax Transformer

提出了一种 softmax-free transformer 或 SOFT 方法，通过使用高斯内核函数替换点积相似性，而不需要标准化以消除 softmax，在计算复杂度上具有线性复杂度，并显著提高了已有 ViT 变种的计算效率。

Oct, 2021

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

线性变换中的魔鬼

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022

注意力不足有序化！通过合作对抗修补欺骗可变形视觉 Transformer

在本研究中，我们首次针对变形 Transformer 模型进行了注意力劫持的对抗攻击，我们证明了这些攻击不会传递到变形 Transformer，这是由于其稀疏的注意力结构。我们的实验表明，仅对输入领域的 1% 施加了修复区域就能导致 0% 的 AP，并且我们还展示了这些攻击能够有效支持不同的攻击者场景，因为它们能够在攻击者的控制下重定向注意力。

Nov, 2023