- EMNLPBERT 用于单语和跨语言逆词典
本文研究怎样使用 BERT 模型来完成 Reverse Dictionary 的任务,并结合 Multilingual BERT 模型实现多语言反向词典转换,同时提出了一种有效的方法来解决 BERT 模型生成词的问题。该模型在没有平行语料库 - 利用自监督单语数据进行多语言神经机器翻译
本文研究了两个方向在低资源的神经机器翻译中的应用。第一种方向利用高资源语言通过多语言 NMT 来提高低资源语言的翻译质量。第二种方向利用自监督单语数据来预训练翻译模型并在少量监督数据的支持下进行 fine-tuning。本研究结合这两种方向 - EMNLP低资源神经机器翻译的语言模型先验
本文介绍了一种新的神经翻译模型加入语言模型的先验知识的方法,通过加入正则化项确保神经翻译模型输出分布在语言模型先验下的概率合理,而避免与语言模型的不一致。与先前的工作不同,该方法只在训练时使用语言模型,并不会降低解码速度,实验结果表明该方法 - EMNLPSimAlign: 使用静态和上下文嵌入实现高质量的单词对齐,无需并行训练数据
本文提出了一种无需平行数据就能进行词对齐的方法,基于多语言词嵌入,可以用于统计和神经机器翻译以及跨语言注释投影等任务。结果表明,使用词嵌入创建的对齐效果比传统统计对齐器效果更好,即使是在有丰富的平行语料的情况下。
- AAAI基于共性和多样性建模的无监督神经方言翻译
本文研究旨在找出方言翻译任务中缺乏平行语料和具有类似语法的两方之间的共性和差异之处,从而建立无监督翻译模型。结果表明,我们的方法在 20 万万普通话和广东话的单语语料库上的性能优于规则 - 基础简体和繁体中文转换以及常规无监督翻译模型。
- 神经机器翻译合成数据中的领域、翻译语体和噪声
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
- Facebook AI 的 WAT19 缅甸语 - 英语翻译任务提交
本文描述了 Facebook AI 在 WAT 2019 缅甸语 - 英语翻译任务中的提交。我们运用基于 BPE 的 transformer 模型,探索了利用单语数据提高泛化能力的方法,包括自训练、回译和它们的组合。我们进一步通过使用噪声通 - EMNLP神经机器翻译的上下文感知单语修复
本研究提出了一种单一语言 DocRepair 模型,用于自动后期编辑语境中一个句子的翻译结果,通过在训练中使用原始的一致组和采样的不一致组进行记录,证明这种方法取得了成功效果,并且使用 BLEU 分数和人类评估将其与基线进行比较。
- ACL低资源翻译的广义数据增强
本论文提出了一种在低资源机器翻译中进行数据增强的通用框架,该框架不仅使用目标端单语数据,还通过相关高资源语言进行桥接,通过在两个步骤中使用词典和修改无监督机器翻译框架,将高资源数据转换为低资源语言,实验证明该方法在极低的资源条件下,与受监督 - 神经机器翻译中的单语数据使用:一项系统研究
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
- 简单融合:语言模型的回归
本研究比较了将语言模型融合进神经机器翻译的几种方法,并提出了一种新的利用预训练语言模型得分的简单方法,使得翻译模型能够专注于源语言建模,从而在四个测试数据集上取得了 BLEU 值 0.24 至 2.36 的提升。
- EMNLP神经机器翻译的强化学习研究
本文进行了一项系统性研究,比较了训练 NMT 模型的几个重要因素(例如基线奖励,奖励塑造)在强化学习中的作用,并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能,融合了所有发现,取得了 WMT17 中英翻译任务 - EMNLP通用神经机器翻译的上下文参数生成
提出了一种基于神经机器翻译模型的简单修改,使其能够使用单个通用模型在多种语言之间进行翻译,同时允许进行语言特定参数化,也可用于领域自适应,可以使用单语数据进行训练,表现优于现有技术,并且学习到的语言嵌入能够揭示语言之间的有趣关系。
- AAAI利用单语数据进行神经机器翻译模型的联合训练
本文提出了一种新方法,通过联合 EM 优化方法融合源语言和目标语言的神经机器翻译模型,以更好地利用单语数据来提高翻译质量,实验结果表明,相对于使用单语数据训练的强基线系统,该方法可以同时提高源到目标和目标到源模型的翻译质量。
- AAAI跨语言情感分类的结构对应学习及一对多映射
本文提出了一种基于分布式词表示的跨语言结构对应学习方法,能够在没有平行语料库的情况下学习具有意义的一对多映射,用于处理跨语言情感分类问题,在 NLP&CC 2013 跨语言情感分析数据集上进行试验,证明该方法比最先进的方法更具竞争力。
- ACL使用单语数据改进神经机器翻译模型
通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高 + 2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对 IWS