通过动态组合的多头注意力机制改进 Transformer

ICMLMay, 2024

通过动态组合的多头注意力机制改进 Transformer

Improving Transformers with Dynamically Composable Multi-Head Attention

Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan

TL;DR提出了一种动态可组合的多头注意力 (DCMHA) 架构，通过动态组合注意力头解决了多头注意力中的问题，并显著提升了模型的表达能力，达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。

Abstract

multi-head attention (MHA) is a key component of transformer. In MHA, attention heads work independently, causing problems such as low-rank bottleneck of attention score matrices and head redundancy. We propose D

multi-head attention transformer dynamically composable multi-head attention dcmha dcformer

发现论文，激发创造

DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力

通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 DHA 模型，实现了预训练预算的极大节约和高性能的平衡。

Jun, 2024

RCMHA: 相对卷积多头注意力用于自然语言建模

在语言建模中，通过利用相对位置编码与深度卷积层架构相结合的改进 MHA 模块，提高准确性并减少内存使用，该模块在实证实验中展现了超越其他注意力模块的优势。

Aug, 2023

基于注意力头的注意力混合模型：逐标记选择注意力头

本文提出了一种新的神经网络结构 MoA （即 Mixture of Attention Heads），它结合了 Mixture-of-Experts 和 Multi-head Attention 机制，通过动态地选择 Attention Heads 实现了条件计算，有效提高了多个自然语言处理任务的性能，并提供了一种新的模型可解释性视角。

Oct, 2022

对抗多头：利用注意力头嵌入实现高效参数的多头注意力

我们提出了一种使用单个共享投影矩阵和多个头嵌入（MHE）的替代模块，实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率，并且相对于 MHA 仅需要可忽略的附加参数。

Oct, 2023

多头注意力的支柱寻找

本文提出了使用最小冗余特征选择的思想，通过聚焦于最具代表性和独特性的特征，采用自监督群组约束进行训练的 Grouped Head Attention 模型，以及通过投票去除冗余头部来实现更有效和高效的多头自注意力模型。实验结果表明，该方法在三个基准任务上显著提高性能的同时，压缩参数。

May, 2023

SwitchHead：混合专家注意力加速变压器

SwitchHead 是一种新颖的方法，通过使用混合专家（Mixture-of-Experts）层和较少的自注意力矩阵，减少计算和内存需求，实现与基线 Transformers 相同参数预算的语言建模性能，进而获得了墙钟速度的提升。

Dec, 2023

混合 $h-1$ 个头比 $h$ 个头更好

通过重新分配注意力头部，我们提出了一种混合专家模型（MAE），其利用分块协调下降算法对其进行训练，并在机器翻译任务和语言建模任务中表现出优异的性能。

May, 2020

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

超网络中的注意力

使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力，在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。

Jun, 2024

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020