利用合成目标进行机器翻译
从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。
Jan, 2024
本研究旨在探讨何种情况下用合成资源进行预训练是有效的。我们将神经机器翻译作为情景背景,研究使用两种新方法进行翻译模型预训练的影响,并在多种语言对上进行实证评估,结果表明预训练的好处即使在混淆或纯合成数据的情况下也可以实现,并研究混淆和合成预训练技术能够减轻虚假模型毒性的程度。
Dec, 2022
本文探讨了使用合成的并行数据在神经机器翻译中的作用,提出了一种新型的伪并行语料库,在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。
Apr, 2017
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上,翻译质量分别提高了 1.7 和 1.2 BLEU 分数。
Aug, 2018
通过使用机器翻译创建合成数据(Translationese)预训练语言模型(LMs),本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例,将网络抓取的单语文档翻译成目标语言,然后在这些合成数据(synthetic)上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明,在下游自然语言理解和生成任务中,与基于干净数据进行预训练的语言模型相比,我们的模型性能仅差 3.56%(自然语言理解任务)和 1.51%(自然语言生成任务)。此外,我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法,从而显著提高模型性能。我们还发现,在一个微小比例(10%)的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库,希望能够弥补英语和非英语大型语言模型性能差距。
Mar, 2024
人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性,而由于数据稀缺、隐私问题和高成本,获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现,通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述,并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性,并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。
Apr, 2024
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
通过 “模拟到真实” 的技术,本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型,再利用学习到的句子嵌入来定义距离度量,从而实现将自然语言映射到合成数据集的支撑上,训练出只使用合成训练数据的自然语言处理模型,其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。
Apr, 2020
本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性,从而提高对拼写错误等变异的覆盖率。作者表明,通过在训练时使用一些较为简单的合成噪音,可以实现对常见噪音(例如 Wikipedia 编辑日志中的修正)的鲁棒性,同时不会降低在规范文本上的表现。
Feb, 2019