能效操作的注意力机制
本文研究了两种简单而有效的注意力机制——全局式和局部式,证明了这两种方法在英德翻译任务中的有效性,并使用不同的注意力架构建立了一个新的WMT'15英德翻译任务最佳结果的集成模型,其BLEU分数为25.9分,比现有的最佳基于NMT和n-gram reranker的系统提高1.0分。
Aug, 2015
本文介绍了一种基于注意力机制的神经机器翻译模型,该模型通过暂时性存储对齐信息和调节注意力值的方法,提高了翻译效果, 在两种语言对上的大规模实验中,该方法不仅超越了基线NMT模型,还比其他相关方法表现更出色,甚至有些情况下在不使用集成的情况下也能胜过SMT基准。
Aug, 2016
本论文研究了注意力机制在神经机器翻译中生成对齐的问题,并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制,实验表明,这种机制比标准注意力机制产生更好的对齐效果,并且在中英文翻译任务中均有显著提高。
Sep, 2016
本文研究了神经机器翻译中编码器-解码器注意机制的特点,发现当翻译含义模糊的词汇时,注意机制更关注上下文标记。但与其他名词相比,注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记,因此得出结论:注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明,NMT 模型在编码器隐藏状态中学习编码所需的上下文信息,而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记,而最后几层学习从相关但不对齐的上下文标记中提取特征信息。
Oct, 2018
本研究提出一种简单的位置相对注意力机制,可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题,并比较了 GMM-based和加性能量 based 等两种注意力机制, 最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。
Oct, 2019
本文提出了关于Transformer网络在神经机器翻译(NMT)领域的广泛分析,重点关注编码器-解码器注意机制,证明了注意权重系统地通过依赖于源序列中的未知标记而产生对齐错误。我们提出了证据表明错误对齐对模型行为的影响,并证明了编码器-解码器注意机制作为NMT的可解释性方法。最后,基于我们的分析,我们提出了可以大大降低单词对齐错误率的方法,与从注意力权重中引导对齐的标准方法相比。
Sep, 2021
本文探讨了用于减少NLP应用程序能源消耗的技术,其中包括衡量能源使用的技巧以及可以调节以减少训练和推理的能源消耗的不同硬件和数据中心设置,例如功率限制,可使基于变压器的语言模型训练的能源使用减少15%。
May, 2022
该论文通过对NLP的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于transformer模型的效率进行改进的研究贡献的调查,旨在确定当前NLP技术对可持续社会的贡献,并为未来研究奠定基础。
May, 2024