多头注意力的支柱寻找

ACLMay, 2023

Finding the Pillars of Strength for Multi-Head Attention

Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria

TL;DR本文提出了使用最小冗余特征选择的思想，通过聚焦于最具代表性和独特性的特征，采用自监督群组约束进行训练的 Grouped Head Attention 模型，以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明，该方法在三个基准任务上显著提高性能的同时，压缩参数。

Abstract

Recent studies have revealed some issues of multi-head attention (MHA), e.g., redundancy and over-parameterization. Specifically, the head

multi-head attention redundancy over-parameterization grouped head attention self-supervised group constraint

发现论文，激发创造

对抗多头：利用注意力头嵌入实现高效参数的多头注意力

我们提出了一种使用单个共享投影矩阵和多个头嵌入（MHE）的替代模块，实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率，并且相对于 MHA 仅需要可忽略的附加参数。

Oct, 2023

DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力

通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 DHA 模型，实现了预训练预算的极大节约和高性能的平衡。

Jun, 2024

十六个头真的比一个好吗？

本研究表明，即使使用多重头部训练模型，实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响，可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率，并提供关于哪些模型部分更依赖于多头注意力的初步证据，并发现训练动态在多头注意力带来的收益中扮演着重要角色。

May, 2019

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

基于 Conformer 的自注意力头多样性分析

本文研究了多头注意力机制在端到端自动语音识别系统中的应用，通过分析多个注意头之间的差异并探究不同的训练方法来提高多头之间的多样性，得出使用促进多头注意头多样性的辅助损失函数更有效，并在 Librispeech 数据集上实现了高达 6% 的相对语音识别准确率提升。

Sep, 2022

混合 $h-1$ 个头比 $h$ 个头更好

通过重新分配注意力头部，我们提出了一种混合专家模型（MAE），其利用分块协调下降算法对其进行训练，并在机器翻译任务和语言建模任务中表现出优异的性能。

May, 2020

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

多分辨率分析 (MRA) 用于近似自注意力

利用 Multiresolution Analysis 中的 Wavelets 概念构建一种高效的自我关注模型，同时在短序列和长序列的 NLP 任务上均表现优异。

Jul, 2022