将改写生成视为零样本多语言翻译:将语义相似性从词汇和句法多样性中分离开来
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
使用序列到序列的释义器作为人类参考的评估工具,将机器翻译评估任务转化为对机器翻译输出进行评分的任务。通过将释义技术视为零射任务,将释义器训练为多语言 NMT 系统,并将其应用于质量估计任务中,以条件化源,而不是参考,发现其在各种语言对中的表现均优于 WMT 2019 质量评估任务中的所有其他度量标准。
Apr, 2020
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018
该论文介绍 ParaBank,这是一个大规模的英语释义数据集,使用神经机器翻译和词汇约束生成英语句子的多个高质量释义版本,可用于句子改写任务。
Jan, 2019
本文通过基于 Transformer 的语言模型提出了一种利用多语言平行文本自动生成同义词的简单统一模型,可以在一步中实现无监督同义词生成。该模型相较于中文中的折叠法方法,其生成的同义词更加相似,并且能够在大规模未对齐的语料库上进行预训练。同时,利用噪声自编码器机制还可以提高模型的多样性和鲁棒性。实验结果表明,该模型在同义词关系、多样性、流畅度和效率等方面均优于折叠法。
Nov, 2019
本文针对往返机器翻译产生的模棱两可的翻译问题,提出了一种基于信息瓶颈的对抗式训练方法。该方法将引入一个可调整的参数来平衡准确性和多样性,并在实验中获得更好的效果。
May, 2022
该研究探讨了四种生成马拉雅拉姆语释义的方法,利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标(如 BLEU、METEOR 和余弦相似度)和人工标注来评估生成的释义。我们的发现表明,自动化评估指标可能不完全适用于马拉雅拉姆语,因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。
Jan, 2024
本文提出了一种将改写生成任务视为无监督机器翻译的新方法,通过将大规模无标签单语语料库拆分成多个簇并使用这些簇的对训练多个 UMT 模型,然后基于这些 UMT 模型生成的改写语句对,可以训练出一个统一的代理模型,用于生成改写句子,该方法避免了对双语句对的依赖,同时也可以让人类干预模型,使用不同的过滤标准生成更多元的改写语句。在现有的改写数据集上进行的实验表明了该方法的有效性。
Sep, 2021
本文提出了 BTmPG(Back-Translation guided multi-round Paraphrase Generation) 框架,通过多轮的改写和反向翻译保留语义信息来增加生成的改写句子与原始句子的差异性,并在人工评价和自动评价中证明了其提高了改写的多样性并保持了原始句子的语义。
Sep, 2021
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018