不要排除掉单语言说话者：一种众包机器翻译数据的方法

ACLJun, 2021

不要排除掉单语言说话者：一种众包机器翻译数据的方法

Don't Rule Out Monolingual Speakers: A Method For Crowdsourcing Machine Translation Data

Rajat Bhatnagar, Ananya Ganesh, Katharina Kann

TL;DR本文提出了一种新的机器翻译数据集，利用 GIF 作为中介，从单语注释器中收集平行句子，从而降低了需要寻找、训练双语人员的成本，并经过内在和外在评估，发现使用 GIFs 收集的句子确实具有更高的质量。

Abstract

High-performing machine translation (MT) systems can help overcome language barriers while making it possible for everyone to communicate and use language technologies in the language of their choice. However, such systems require large amounts of →

machine translation data collection parallel sentences gifs evaluation

发现论文，激发创造

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019

利用单语语料库进行非监督式机器翻译

提出了一种基于单语语料的机器翻译方法，该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中，从而学习翻译而不使用任何标记数据，该方法在两种语言对的两个广泛使用的数据集上表现出色。

Oct, 2017

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

神经机器翻译中的回译研究

本研究探讨了使用回译数据对 NMT 模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的 NMT 系统，并分析了相应的翻译绩效。

Apr, 2018

基于双语词典的神经机器翻译，无需使用平行语料

本文提出了一项基于双语词典而非平行句子的机器翻译新任务，采用 “锚定训练”(AT) 方法对其进行处理，实验证明该方法较其他基线方法表现更佳，尤其对于难以自我学习的语言对而言，其表现接近于受监督训练的神经机器翻译，并能发挥双语词典和大规模单语语料库的潜能。

Jul, 2020

使用单语数据改进神经机器翻译模型

通过将单语数据与自动背景翻译配对，我们未改变神经网络结构，使用目标语单语训练数据进行神经机器翻译（NMT）模型的训练，并在多项任务上取得最新的最优结果（最高 + 2.8-3.7 BLEU），并证明了使用领域单语和平行数据进行微调，对 IWSLT 15 任务英德翻译有实质性的改善。

Nov, 2015

多语言自动对话评估

通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Aug, 2023

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

选择机器翻译数据快速引导自然语言理解系统

本文研究了使用机器翻译（MT）为大规模语音控制设备的新语言引导自然语言理解（NLU）系统的使用情况，并探讨了不同的 MT 数据过滤方法以及语言特定的后处理方法在大规模 NLU 任务中的应用。结果表明，使用 MT 数据可以大大提高 NLU 的性能并减少人工工作量。

May, 2018