数据到文本的双语生成
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
将数据转文本生成过程拆分为符号文本计划和神经生成两个阶段,通过匹配参考文本和选择高质量文本计划提高系统的可靠性和适用性,同时保持流畅的输出。在 WebNLG 基准测试中得到了 BLEU 得分和人工评估的改善,并能够输出同一输入的多种不同的实现,为生成文本结构的显式控制铺平了道路。
Apr, 2019
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022
我们探讨了语言生成任务中,训练数据严重不足的情况下,GPT 等 LLM 模型如何处理爱尔兰语、马耳他语、威尔士语和布列塔尼语等语言。我们测试了多种提示类型和格式,发现少量样本训练对于直接生成不常见语言较为有效,但通过英语进行翻译后的生成差距不大。在 WebNLG 2023 中,我们的系统在所有语言和指标上均显著优于其他竞争系统,表现出令人满意的效果。然而,我们在威尔士语中表现最好的结果仍远低于 WebNLG'20 中最差的英语系统。
Aug, 2023
本文探讨了使用合成的并行数据在神经机器翻译中的作用,提出了一种新型的伪并行语料库,在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。
Apr, 2017
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
该研究提出了一种基于改写生成的方法,可以减少创建新对话代理所需要的时间和成本,同时提高其性能,使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力,有助于在组织范围内规模化部署这项技术。
Apr, 2022