层叠注意力：提高 Transformer 模型对层次模式建模的能力

Oct, 2023

层叠注意力：提高 Transformer 模型对层次模式建模的能力

Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns

Brian DuSell, David Chiang

TL;DR我们提出了堆栈注意力：一种集成堆栈的注意力操作符，其灵感来源于堆栈与上下文无关语言（CFLs）的理论联系，以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种：一种与确定性下推自动机（PDAs）相关，一种基于非确定性 PDAs，使得 transformers 能够识别任意 CFLs。我们证明，具有堆栈注意力的 transformers 在学习 CFLs 方面非常有效，能够在理论上具有最大的解析困难的 CFL 上取得强大的结果。我们还证明，堆栈注意力在受约束参数预算下在自然语言建模中更加有效，并包括机器翻译方面的结果。

Abstract

Attention, specifically scaled dot-product attention, has proven effective for natural language, but it does not have a mechanism for handling hierarchical patterns of arbitrary nesting depth, which limits its ab

scaled dot-product attention hierarchical patterns stack attention context-free languages transformers

发现论文，激发创造

堆栈注意力的 Transformer

自然语言被认为是（轻度）上下文敏感的。为了解决 transformer 模型在建模无上下文语言任务方面的能力限制，我们提出了利用可微分的基于堆栈的注意力机制来增强它们的方法。我们的基于堆栈的注意力机制可以与任何基于 transformer 的语言模型结合，对模型添加了一定程度的可解释性。我们展示了我们的基于堆栈的注意力机制的加入使得 transformer 模型能够建模一些，但不是全部确定性的无上下文语言。

May, 2024

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

神经堆栈的无可及转换

分析了增加堆栈功能的 RNN 模型的行为，研究它们在多个任务中的表现，并发现这些模型可以通过发现直观的基于堆栈的策略来解决这些任务。但是，与 LSTMs 等经典架构相比，堆栈 RNNs 更难训练，并且更复杂的网络通常会将栈用作非结构化内存来找到近似解。

Sep, 2018

推递层：在变形金刚语言模型中编码递归结构

递归是人类语言的一项突出特征，由于缺乏明确的递归状态跟踪机制，对自我关注来说是一项根本性的挑战。本研究引入了推入式层，这是一种新的自我关注层，通过跟踪已观察前缀的增量解析中每个令牌的估计深度，模拟了递归状态。使用推入式层的 Transformer 语言模型在句法泛化方面表现更好，并具有 3-5 倍的样本高效性，同时保持类似的困惑度。

Oct, 2023

锥头族：层次感知注意力

本文介绍了锥形注意力机制，这是一种用于捕获层次关系的方法，它使用双曲锥体度量数据点之间的相似度，并在各种模型和任务中实现了更好的性能。

Jun, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

具有层次累积的树状关注

本文提出了 “Hierarchy Accumulation” 的方法，将分析树结构编码为自注意力，以常数时间复杂度实现了序列模型，相较于 SOTA 方法，在四个 IWSLT 翻译任务和 WMT'14 英德翻译任务上表现更好，并在三项文本分类任务上胜过 Transformer 和 Tree-LSTM，同时表明使用分层先验可以补偿数据短缺，该模型更倾向于使用短语级别的自注意力。

Feb, 2020

利用分解注意力的单层变换器对广义 Potts 模型进行最优推断

通过对来自一个广义 Potts 模型的数据进行学习，我们证明了带一点修改的自注意力单层可以在无限采样的极限下精确地学习这个分布，这种修改后的自注意力具有与条件概率相同的功能形式。

Apr, 2023

神经算子的连续关注

用注意机制来设计神经操作器，在函数空间中进行 Transformers 的研究，证明其作为实践中的 Monte Carlo 或有限差分近似算符，同时介绍了函数空间泛化的 patching 策略和相关神经操作器的类，证明其在注意力函数空间表述和神经操作器中的应用的潜力。

Jun, 2024

折叠注意力：用于设备上基于变压器的流式语音识别的内存和功耗优化

通过使用 folding attention 技术，针对线性层进行优化，从而显著减小模型大小并改善存储和功耗效率，同时不损失模型准确性或计算开销。

Sep, 2023