使用连续缓存学习记忆翻译历史
本文提出一种扩展神经网络语言模型以适应最近历史的方法,将过去的隐藏活性作为记忆保存,并通过与当前隐藏激活的点积来访问它们,此机制非常高效,能够扩展至非常大的存储空间。同时,作者指出了神经网络外部存储与基于计数的语言模型中缓存模型之间的联系,并在几个语言模型数据集上证明了他们的方法比最近的记忆增强网络性能显着优越。
Dec, 2016
提出了一种基于缓存的方法来对神经机器翻译中的一致性进行建模,并采用一个新的层次来计算缓存中的目标词的分数,实验结果表明,所提出的基于缓存的神经模型相对于几种最先进的 SMT 和 NMT 基线的翻译性能都有了显著的提高。
Nov, 2017
提出了一种扩展连续缓存模型的方法,通过使用大规模的非参数内存组件,存储过去观察到的所有隐藏激活,并利用近似最近邻搜索和量化算法,高效地存储和搜索数百万的表示,显著提高了预训练语言模型在新分布上的困惑度,并且可以有效地扩展到比以前提出的本地缓存模型更大的上下文范围。
Nov, 2017
通过利用编码器 - 解码器 Transformers 的生成能力,我们提出了一种新的方法来持续学习神经机器翻译系统,以有效地从包含不同语言的经验流中学习,通过使用模型作为生成器填充重播记忆来对抗灾难性遗忘,而无需明确记忆训练数据。
Mar, 2024
本文提出了一种新的检索增强 NMT 模型,用于对比检索翻译记忆,利用 Hierarchical Group Attention 模块和 Multi-TM contrastive learning 目标函数增加多层面信息收益,实验结果表明,该模型在基准数据集上优于现有算法。
Dec, 2022
本文提出了一种选择性存储增强神经文档翻译模型,通过从训练语料库中检索相似的双语句对来增强全局上下文信息,并扩展双流注意力模型以捕捉局部上下文和多样化的全局上下文,该统一方法使我们的模型可以优雅地在三个公开的文档级机器翻译数据集上训练,并显著优于以前的文档级 NMT 模型。
Jan, 2022
本篇论文提出了动态神经机器翻译 (Dynamic NMT) 的方法,通过对测试句子进行微调以适应具体场景,从而显着提高翻译性能。该方法特别适用于高度相似的句子。
Sep, 2016
通过内存网络以及结构化预测方式解决文档级机器翻译问题。在训练过程中囊括源文件和目标文件,通过分别采用两个记忆组件来处理相应上下文,同时提出一种基于块协调下降的迭代解码算法。在法语、德语和爱沙尼亚语文件中进行英语翻译的实验结果表明,该模型在利用上下文方面有效,在 BLEU 和 METEOR 方面的表现均显著优于先前的方法。
Nov, 2017