能效操作的注意力机制

Apr, 2022

Attention Mechanism with Energy-Friendly Operations

Yu Wan, Baosong Yang, Dayiheng Liu, Rong Xiao, Derek F. Wong...

TL;DR本文针对自然语言处理模型中的计算密集型注意机制，从能源消耗的角度重新设计了注意机制的变体，将大量耗能的乘法替换成选择性运算或加法，通过三个机器翻译任务的实验结果表明，该模型在节省99％和66％的能量的同时，获得了可比较的准确性。

Abstract

attention mechanism has become the dominant module in natural language processing models. It is computationally intensive and depends on massive power-hungry multiplications. In this paper, we rethink variants of

发现论文，激发创造

基于注意力机制的神经机器翻译有效方法

本文研究了两种简单而有效的注意力机制——全局式和局部式，证明了这两种方法在英德翻译任务中的有效性，并使用不同的注意力架构建立了一个新的WMT'15英德翻译任务最佳结果的集成模型，其BLEU分数为25.9分，比现有的最佳基于NMT和n-gram reranker的系统提高1.0分。

Aug, 2015

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线NMT模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过SMT基准。

Aug, 2016

带有受监督注意力的神经机器翻译

本论文研究了注意力机制在神经机器翻译中生成对齐的问题，并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制，实验表明，这种机制比标准注意力机制产生更好的对齐效果，并且在中英文翻译任务中均有显著提高。

Sep, 2016

注意力机制分析：基于神经机器翻译的词义消歧案例

本文研究了神经机器翻译中编码器-解码器注意机制的特点，发现当翻译含义模糊的词汇时，注意机制更关注上下文标记。但与其他名词相比，注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记，因此得出结论：注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明，NMT 模型在编码器隐藏状态中学习编码所需的上下文信息，而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记，而最后几层学习从相关但不对齐的上下文标记中提取特征信息。

Oct, 2018

探究神经机器翻译中注意力的解释能力

本文通过引入反事实的注意力模型，评估了注意力模型在神经机器翻译中的解释能力，结果表明注意力模型无法可靠地解释 NMT 模型的决策。

Sep, 2019

基于定位关系的注意力机制，用于强健的长篇语音合成

本研究提出一种简单的位置相对注意力机制，可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题，并比较了 GMM-based和加性能量 based 等两种注意力机制, 最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。

Oct, 2019

Transformer NMT中的注意力权重不能完全对齐序列中的单词，但在很大程度上解释了模型的预测

本文提出了关于Transformer网络在神经机器翻译（NMT）领域的广泛分析，重点关注编码器-解码器注意机制，证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响，并证明了编码器-解码器注意机制作为NMT的可解释性方法。最后，基于我们的分析，我们提出了可以大大降低单词对齐错误率的方法，与从注意力权重中引导对齐的标准方法相比。

Sep, 2021

大国的责任：降低语言模型训练能耗的建议

本文探讨了用于减少NLP应用程序能源消耗的技术，其中包括衡量能源使用的技巧以及可以调节以减少训练和推理的能源消耗的不同硬件和数据中心设置，例如功率限制，可使基于变压器的语言模型训练的能源使用减少15％。

May, 2022

Softmax的优势：揭示其在线性注意力上的性能优势

通过对softmax和线性注意机制进行全面的比较分析，我们揭示了softmax注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

自然语言处理中Transformer的效率综述

该论文通过对NLP的演变及其应用的准确性和效率的评论，以及提出和硬件考虑下对基于transformer模型的效率进行改进的研究贡献的调查，旨在确定当前NLP技术对可持续社会的贡献，并为未来研究奠定基础。

May, 2024