本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型,用于加速 Transformer 机器翻译系统,在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升(几乎不降低 BLEU)和与 Aan 模型的 1.8 倍加速(比没有使用注意力缓存的基线高出 16 倍)。
Jun, 2019
该论文提出了一种协作式多头注意力层,该方法通过共享 key/query 投影来降低注意力层中参数的数量,可以用于任何变压器体系结构,并对语言理解、机器翻译和计算机视觉方面进行了验证和实验,并可将预训练的多头注意力层重新参数化为协同注意力层,使 key 和 query 投影的大小减小了 4 倍,而准确性和速度保持不变。
Jun, 2020
本论文研究了多语言神经机器翻译中参数共享技术,发现完全参数共享方法能够提高 BLEU 得分,但是对于较为不同的语言,BLEU 得分反而下降。因此,我们提出了针对局部参数共享的方法,能够显著提高翻译精度。
Sep, 2018
本文探究权重共享对神经架构搜索的影响,发现权重共享导致模型表现差异显著,同时也可以从共享权重的超级神经网络中提取有价值的信息,并提出适度减少权重共享的方法来减少差异性并提高性能。
Jan, 2020
我们提出了一种使用单个共享投影矩阵和多个头嵌入(MHE)的替代模块,实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率,并且相对于 MHA 仅需要可忽略的附加参数。
Oct, 2023
使用权重共享(weight-sharing)的方法研究了神经网络(neural network)中的不同哈希函数以及它们对神经网络性能的影响。
Dec, 2023
通过解锁多头注意力的潜力,我们提出了一个无需额外训练的框架 LongHeads,以增强大语言模型(LLMs)在处理长篇输入方面的能力,通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记,同时不同层的不同头可以共同处理更长的上下文,有效地扩展了现有模型的可用上下文窗口,展示了对增强长文本理解的潜力。
Feb, 2024
本文研究卷积神经网络体系结构中共享权重对优化的重要性,探索不同目标函数频率的不同概念,并证明其必要性。研究结果表明,使用共享权重的体系结构与其他不使用共享权重的体系结构在优化方面存在理论差异。
Jun, 2017
通过分析注意力冗余,设计了一种解耦式头部注意力机制(Decoupled-Head Attention,DHA),达到性能和效率之间的更好平衡,通过逐步线性融合类似头部参数来将 Multi-Head Attention(MHA)模型转换为 DHA 模型,实现了预训练预算的极大节约和高性能的平衡。
Jun, 2024
提出了一种多路多语言的神经机器翻译方法,通过共享单个的注意力机制,仅线性地增加神经网络的参数数量即可实现多语言翻译,并成功地提高了低资源语言对的翻译质量。
Jan, 2016