通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本文探讨了使用合成的并行数据在神经机器翻译中的作用,提出了一种新型的伪并行语料库,在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。
Apr, 2017
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
本文介绍了在进行神经文本生成时,由于数据量不足,导致模型对于噪声的过度敏感,从而完成了对于 “幻觉” 生成文本的控制,通过该方法对 WikiBio 语料库进行测试,证明了其在人工和自动评估中的高效性。
Oct, 2020
本研究针对大规模多语言机器翻译,分析了 M2M 常规神经机器翻译模型和通用的 ChatGPT 模型中幻觉翻译的普遍性、特性和缓解措施,以期构建更加稳定和可信的机器翻译系统。
Mar, 2023
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。
Dec, 2022
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本研究探讨了使用回译数据对 NMT 模型性能的影响,通过逐步增加回译数据来训练一系列以德语为源语言,以英语为目标语言的 NMT 系统,并分析了相应的翻译绩效。
Apr, 2018