本文提出了一种新的神经网络结构 MoA (即 Mixture of Attention Heads),它结合了 Mixture-of-Experts 和 Multi-head Attention 机制,通过动态地选择 Attention Heads 实现了条件计算,有效提高了多个自然语言处理任务的性能,并提供了一种新的模型可解释性视角。
Oct, 2022
本研究表明,即使使用多重头部训练模型,实质上也可以在测试时间删除大量的注意力头而不会对性能产生显著影响,可以通过剪枝算法进一步降低模型的复杂度、提高速度和内存效率,并提供关于哪些模型部分更依赖于多头注意力的初步证据,并发现训练动态在多头注意力带来的收益中扮演着重要角色。
May, 2019
SwitchHead 是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线 Transformers 相同参数预算的语言建模性能,进而获得了墙钟速度的提升。
Dec, 2023
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成,对英语和多语言模型以及多模态建模任务进行了大量实验,证明了 MH-MoE 的有效性。
Apr, 2024
我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。
Oct, 2023
本篇论文研究表明 Transformer 中的注意力头并不相等,为解决这个问题,提出了 HeadMask 方法,在多个语言对中实现了翻译改进。
Sep, 2020
通过分析注意力冗余,设计了一种解耦式头部注意力机制(Decoupled-Head Attention,DHA),达到性能和效率之间的更好平衡,通过逐步线性融合类似头部参数来将 Multi-Head Attention(MHA)模型转换为 DHA 模型,实现了预训练预算的极大节约和高性能的平衡。
Jun, 2024
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020
使用多头自注意力机制,经过一定的初始条件和训练,可以优化和推广 Transformer 模型的核心机制,获得收敛和泛化保证。