多语言神经机器翻译中使用外语重述
通过引入简单的改进算法,不鼓励生成输入中已有的 N-grams,利用多语言神经机器翻译模型生成同义句,控制输入和输出之间的词汇多样性,人工评估表明,该方法比基于 ParaBank 2 的同义句生成器更好地维护意义和语法正确性,并且在两种非英语语言上也同样有效。
Aug, 2020
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
该论文介绍 ParaBank,这是一个大规模的英语释义数据集,使用神经机器翻译和词汇约束生成英语句子的多个高质量释义版本,可用于句子改写任务。
Jan, 2019
该研究探讨了四种生成马拉雅拉姆语释义的方法,利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标(如 BLEU、METEOR 和余弦相似度)和人工标注来评估生成的释义。我们的发现表明,自动化评估指标可能不完全适用于马拉雅拉姆语,因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。
Jan, 2024
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022
通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性,探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性,实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现,但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现,一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。
Apr, 2020
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024