多语言神经机器翻译中使用外语重述

Aug, 2018

多语言神经机器翻译中使用外语重述

Paraphrases as Foreign Languages in Multilingual Neural Machine Translation

Zhong Zhou, Matthias Sperber, Alex Waibel

TL;DR本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义，并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果，并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数，增加了词汇选择的熵和多样性。

Abstract

paraphrases, the rewordings of the same semantic meaning, are useful for improving generalization and translation. However, prior works only explore →

paraphrases corpus level neural machine translation multilingual data generalization

发现论文，激发创造

将改写生成视为零样本多语言翻译：将语义相似性从词汇和句法多样性中分离开来

通过引入简单的改进算法，不鼓励生成输入中已有的 N-grams，利用多语言神经机器翻译模型生成同义句，控制输入和输出之间的词汇多样性，人工评估表明，该方法比基于 ParaBank 2 的同义句生成器更好地维护意义和语法正确性，并且在两种非英语语言上也同样有效。

Aug, 2020

通过生成改写句实现多语言词汇简化

基于预训练语言模型的词汇简化方法取得了显著进展，通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而，这些方法需要针对不同语言进行单独的预训练模型，并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法，通过生成释义来提供词语选择的多样性，同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后，我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明，我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。

Jul, 2023

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

人工改写的参考文献改善神经机器翻译

本文研究采用人工生成的同义词组进行翻译评估，结果表明使用同义词组可以更好地反映人类判断，同时使用同义词组进行系统开发可以产生显著的提高。

Oct, 2020

ParaBank：基于词汇约束神经机器翻译的单语种双语文本生成和句子改写

该论文介绍 ParaBank，这是一个大规模的英语释义数据集，使用神经机器翻译和词汇约束生成英语句子的多个高质量释义版本，可用于句子改写任务。

Jan, 2019

马拉雅拉姆语改写生成的神经机器翻译

该研究探讨了四种生成马拉雅拉姆语释义的方法，利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标（如 BLEU、METEOR 和余弦相似度）和人工标注来评估生成的释义。我们的发现表明，自动化评估指标可能不完全适用于马拉雅拉姆语，因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。

Jan, 2024

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

提高 BLEU 参考覆盖率的多样化自动释义研究

通过现代神经转述技术研究 BLEU 误差函数在单一参考翻译文本下的局限性，探索使用多样化、针对性的参考翻译文本来提高 BLEU 与人类评价的相关性，实验结果表明多样化的自动生成的参考翻译文本的确能够改进 BLEU 的表现，但特定针对被评估机器翻译输出的有效翻译文本的设计也能进一步提高 BLEU 的性能表现，一些强有力的采样方法甚至能够击败人工生成的参考翻译文本。

Apr, 2020

无监督的语句改写

该论文提出了一种从非标记的单语语料库中学习的重述模型，通过在重述识别，生成和训练增强方面与基于机器翻译的方法进行比较，发现单语重述在所有场景中均优于无监督翻译。

May, 2019

通过自动爬取和对齐的句子对进行神经重述

本文介绍了一种基于语言约束的相似性搜索方法，用于自动产生大规模对齐语料库，以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估，并使用基于指针的深度神经网络架构实验。

Feb, 2024