大型语言模型的头部共享注意力

Feb, 2024

Head-wise Shareable Attention for Large Language Models

Zouying Cao, Yifei Yang, Hai Zhao

TL;DR本文提出了一个关于大型语言模型的关注头权重共享的方法，并提出了两种内存高效的共享参数的方法，即 DirectShare 和 PostShare。实验结果表明，我们的关注头共享模型仍然保持了令人满意的性能，证明了将细粒度的权重共享应用于大型语言模型的可行性。

Abstract

large language models (LLMs) suffer from huge number of parameters, which restricts their deployment on edge devices. weight sharing is one promising solution that encourages weight reuse, effectively reducing me

large language models weight sharing head-wise shareable attention directshare postshare

发现论文，激发创造

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020

多语言自注意翻译模型的参数共享方法

本论文研究了多语言神经机器翻译中参数共享技术，发现完全参数共享方法能够提高 BLEU 得分，但是对于较为不同的语言，BLEU 得分反而下降。因此，我们提出了针对局部参数共享的方法，能够显著提高翻译精度。

Sep, 2018

深入探究神经架构搜索中的权重共享

本文探究权重共享对神经架构搜索的影响，发现权重共享导致模型表现差异显著，同时也可以从共享权重的超级神经网络中提取有价值的信息，并提出适度减少权重共享的方法来减少差异性并提高性能。

Jan, 2020

对抗多头：利用注意力头嵌入实现高效参数的多头注意力

我们提出了一种使用单个共享投影矩阵和多个头嵌入（MHE）的替代模块，实验证明我们的 MHE 关注机制在多个下游任务上显著提高了内存效率，并且相对于 MHA 仅需要可忽略的附加参数。

Oct, 2023

平衡和确定性权值共享促进网络性能

使用权重共享（weight-sharing）的方法研究了神经网络（neural network）中的不同哈希函数以及它们对神经网络性能的影响。

Dec, 2023

LongHeads：多头注意力暗地里是一个长上下文处理器

通过解锁多头注意力的潜力，我们提出了一个无需额外训练的框架 LongHeads，以增强大语言模型（LLMs）在处理长篇输入方面的能力，通过选择和关注重要的上下文块来确保各个头能够有效地处理训练长度内的被关注的标记，同时不同层的不同头可以共同处理更长的上下文，有效地扩展了现有模型的可用上下文窗口，展示了对增强长文本理解的潜力。

Feb, 2024

共享权重对于成功的优化至关重要

本文研究卷积神经网络体系结构中共享权重对优化的重要性，探索不同目标函数频率的不同概念，并证明其必要性。研究结果表明，使用共享权重的体系结构与其他不使用共享权重的体系结构在优化方面存在理论差异。

Jun, 2017

DHA：通过自适应头融合从 Transformer 检查点学习分离头注意力

通过分析注意力冗余，设计了一种解耦式头部注意力机制（Decoupled-Head Attention，DHA），达到性能和效率之间的更好平衡，通过逐步线性融合类似头部参数来将 Multi-Head Attention（MHA）模型转换为 DHA 模型，实现了预训练预算的极大节约和高性能的平衡。

Jun, 2024

使用共享注意机制的多路多语言神经机器翻译

提出了一种多路多语言的神经机器翻译方法，通过共享单个的注意力机制，仅线性地增加神经网络的参数数量即可实现多语言翻译，并成功地提高了低资源语言对的翻译质量。

Jan, 2016