synthetic parallel data | BriefGPT

关键词synthetic parallel data

搜索结果 - 5

神经机器翻译的合成预训练任务
本研究旨在探讨何种情况下用合成资源进行预训练是有效的。我们将神经机器翻译作为情景背景，研究使用两种新方法进行翻译模型预训练的影响，并在多种语言对上进行实证评估，结果表明预训练的好处即使在混淆或纯合成数据的情况下也可以实现，并研究混淆和合成预
PDF2 years ago
宣布推出超过 20 亿单词的 CzEng 2.0 平行语料库
本文介绍了一个新的 Czech-English 双语平行语料库 CzEng 2.0，其中包含超过 20 亿个单词，包含文档级信息，并使用多种技术进行了过滤以降低噪声量，此外还包含新的真实和高质量的合成平行数据。CzEng 可供研究和教育目的
PDF4 years ago
MM利用自我训练增强低资源神经机器翻译的反向翻译
利用自训练策略改进 Neural Machine Translation（NMT）模型，通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型，可提高低资源下的翻译品质，提高翻译模型的 BLEU 值。
PDF4 years ago
标记后翻译
提出源端输入带标记的后向翻译方法，以替代传统的加噪声方法，实验证明该方法在英罗马尼亚语翻译中表现优于传统方法，且在英德语翻译中达到同等水平，重新定义了该领域的最佳表现。
PDF5 years ago
仅使用合成的平行数据构建神经机器翻译系统
本文探讨了使用合成的并行数据在神经机器翻译中的作用，提出了一种新型的伪并行语料库，在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。
PDF7 years ago