Transformer 中的自适应注意力跨度
本论文提出一种新方法,使用地标标记来代表输入的每个块,并通过训练使注意力选择相关块,从而使我们可以访问完整的上下文并保留随机访问灵活性。 该方法与专用数据结构和系统的内存层次结构无缝集成,可以处理任意长度的上下文长度。
May, 2023
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024
该研究提出了一种时间感知的自注意力机制 —— 时间注意力,用于任何基于变形器模型的预训练语言模型中,以捕捉上下文中的时间信息,并应用于语义变化检测任务,在三个不同语言的数据集上取得最先进的结果。
Feb, 2022
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
通过一系列干预措施,研究表明使用更少的长时记忆和限制网络低层的注意力范围,可以实现与 Transformer-XL 相当的性能,并且可以获得更好的性能。
Jul, 2020
本文讨论了自我注意力(self-attention)在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献,发现了局部对角线模式,并提出用局部高效的自我注意力替代标准自我注意力,通过跳过标准自我注意力废弃的权重来提高模型的效率,但仍保持与基线性能相同。
Apr, 2022