对称点积注意力用于 BERT 语言模型的高效训练

ACLJun, 2024

对称点积注意力用于 BERT 语言模型的高效训练

Symmetric Dot-Product Attention for Efficient Training of BERT Language Models

Martin Courtois, Malte Ostendorff, Leonhard Hennig, Georg Rehm

TL;DR提出了一种与 Transformer 架构的自注意力机制兼容的替代性兼容函数，并在类似 BERT 模型的预训练中实现了对称的注意力机制，在 GLUE 基准测试中得分 79.36，减少了可训练参数数量的 6％，并将收敛前所需的训练步骤减少了一半。

Abstract

Initially introduced as a machine translation model, the Transformer architecture has now become the foundation for modern deep learning architecture, with applications in a wide range of fields, from computer vision to natural language processing. Nowadays, to tackle increasingly more

transformer architecture deep learning attention mechanism compatibility function bert-like models

发现论文，激发创造

合成器：重新思考 Transformer 模型中的自注意力

通过大量实验，本文研究了基于点积的自注意力机制对 Transformer 模型性能的实际重要性和贡献，并提出了一种无需 token 交互的学习合成注意力权重的模型 Synthesizer，并在多个任务中取得了竞争性的表现，证明了该模型的有效性。同时，与动态卷积和 Linformers 相比较，Synthesizer 不但更快，而且还提高了 perplexity。

May, 2020

Transformer 神经网络架构中注意力机制的缩放点积的替代方法

通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。

Nov, 2023

椭圆形注意力

应用 Mahalanobis 距离计算注意力权重，将模型的特征空间在高上下文相关性方向进行拉伸，从而达到减少特征塌缩和提升模型鲁棒性的效果，验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。

Jun, 2024

利用动态注意力提升基于 Transformer 的大型语言模型的鲁棒性

通过提出一种名为动态注意力的新方法，我们设计了一个针对转换器架构的机制来增强模型本身对各种对抗性攻击的鲁棒性，从而显著减轻对抗性攻击的影响，并将其与其他防御方法（如对抗性训练）相结合以进一步增强模型的鲁棒性。

Nov, 2023

高效注意力：线性复杂度的注意力

本文提出了一种新的有效注意机制，其在计算代价和内存使用方面远优于点积注意力，这种资源效率使得它能够更广泛和灵活地集成到网络中，提高了观察精度，可以用于物体检测、实例分割和立体深度估计等领域。

Dec, 2018

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

MiniLM: 预训练 Transformer 的深度自注意力蒸馏的任务无关压缩

本文通过对最后一层 Transformer 模型中的自我注意模块的蒸馏，提出了一种简单有效的压缩大型预训练模型的方法，同时引入了新的 “缩放点积” 深层自我注意知识，并在这个基础上设计了一个小留学生模型来减少参数量和延迟，实现了对 GLUE 质量基准测试的有效超越。

Feb, 2020

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

查询和关键字总是相关的吗？Transformer 波函数的案例研究

我们通过比较标准注意力机制和仅依赖于位置的简化版本（而不涉及查询和键）在参数化变分波函数领域的性能，在减少计算成本和参数使用的同时取得了竞争性结果。此外，通过分析标准注意力机制生成的注意力图，我们证明了在优化结束时，注意力权重变得有效地与输入无关。我们通过分析计算结果支持了这一结论，并提供了在研究大系统时为何应该从注意力机制中排除查询和键的物理洞见。有趣的是，在输入句子较长的情况下，相同的论点可以推广到自然语言处理领域。

May, 2024

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020