信息路径假说：变形金刚是动态自组织

KDDJun, 2023

信息路径假说：变形金刚是动态自组织

The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles

Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian

TL;DR提出一种名为 SSA 的训练策略，该策略可以减少自注意力的内存和计算成本，同时提高泛化能力。该策略基于信息通路的假设，该信息通路可以独立训练，并能形成子模型，优于密集型自注意力模型在不同的 NLP，计算机视觉和图形学任务中表现优异。

Abstract

transformers use the dense self-attention mechanism which gives a lot of flexibility for long-range connectivity. Over multiple layers of a deep transformer, the number of possible connectivity patterns increases

transformers self-attention information pathways subsampled self-attention generalization

发现论文，激发创造

高速公路变压器：自门控增强自注意网络

通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units，使信息流动更加顺畅，从而提高了在序列学习任务中的性能。同时还成功阐述了其在 context-based Transformer 模型中的应用，即 SDU gates 可以加速优化过程。

Apr, 2020

自注意力神经网络的动力学平均场理论

使用非平衡 Hopfield 网络的路径积分方法研究了变压器网络的动力学规律，发现了与混沌分叉相关的非平衡相变等非平凡的动力学现象，并讨论了这种分析方法改善对变压器模型内部运作理解的潜力。

Jun, 2024

利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

通过对来自一个广义 Potts 模型的数据进行学习，我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布，这种修改后的自注意力具有与条件概率相同的功能形式。

Apr, 2023

学习图像去雨变换网络 with 动态双自注意力

该论文提出了一种基于 Transformer 的图像去雨算法，结合了密集和稀疏自注意力机制，通过选择最有用的相似性值和空间增强的前馈网络来提高去雨效果。实验证明了该方法的有效性。

Aug, 2023

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

自注意机制中的感性偏见和变量创建

本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。

Oct, 2021

为什么 “经典” Transformer 是浅层的以及如何使其深入

通过理论和实证综合研究，证实了 Transformer 模型的深度问题是由于令牌相似性逐步增加所导致的，提出了一种简单的策略来解决这个问题，并初步实验证实了该方法在中等规模的后标准化 Transformer 模型上的有效性。

Dec, 2023

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022