基于无监督机器翻译的改写生成

COLINGSep, 2021

Paraphrase Generation as Unsupervised Machine Translation

Xiaofei Sun, Yufei Tian, Yuxian Meng, Nanyun Peng, Fei Wu...

TL;DR本文提出了一种将改写生成任务视为无监督机器翻译的新方法，通过将大规模无标签单语语料库拆分成多个簇并使用这些簇的对训练多个 UMT 模型，然后基于这些 UMT 模型生成的改写语句对，可以训练出一个统一的代理模型，用于生成改写句子，该方法避免了对双语句对的依赖，同时也可以让人类干预模型，使用不同的过滤标准生成更多元的改写语句。在现有的改写数据集上进行的实验表明了该方法的有效性。

Abstract

In this paper, we propose a new paradigm for paraphrase generation by treating the task as unsupervised machine translation (UMT) based on the assumption that there must be pairs of sentences expressing the same

paraphrase generation unsupervised machine translation monolingual corpus umt models supervised setup

发现论文，激发创造

无监督的语句改写

该论文提出了一种从非标记的单语语料库中学习的重述模型，通过在重述识别，生成和训练增强方面与基于机器翻译的方法进行比较，发现单语重述在所有场景中均优于无监督翻译。

May, 2019

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

将无监督数据生成技术融入自监督神经机器翻译中，以应对低资源语言

本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法，该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能，特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。

Jul, 2021

使用平行语料库进行基于原则的释义生成

本文针对往返机器翻译产生的模棱两可的翻译问题，提出了一种基于信息瓶颈的对抗式训练方法。该方法将引入一个可调整的参数来平衡准确性和多样性，并在实验中获得更好的效果。

May, 2022

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

通过伪平行数据增强无监督机器翻译

即使有深度学习和大规模语言建模的最新发展，对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略，依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划，并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分（从英语到乌克兰语）的改进。

Oct, 2023

无监督统计机器翻译

本文提出了一种基于 SMT 的新颖方法，通过跨语言嵌入映射从单语料库中诱导短语表，再将其与 N-gram 语言模型相结合，通过无监督超参数微调的变体来实现迭代反向翻译，并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进，与监督 SMT 相比关闭了 2-5 BLEU 点的差距。

Sep, 2018

无监督机器翻译的多语言视角

提出了一个概率框架，用于多语言神经机器翻译，特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项，自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明，在大多数方向上，我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上，BLEU 得分比最先进的无监督模型高，并且在罗马尼亚语 - 英语方向上，我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。

Feb, 2020

基于非监督统计机器翻译初始化的无监督神经机器翻译

这篇论文介绍了一种使用合成的双语数据来训练无监督神经机器翻译系统的方法，并使用增量式的反向翻译方法来提高其性能。在 WMT16 德英新闻翻译任务上，该方法在无监督机器翻译方面实现了新的技术水平。

Oct, 2018

双阶段语义解析的无监督双重释义

该研究提出了一种两阶段的语义解析框架，第一阶段利用无监督的语义模型将未标记的自然语言转化为规范化语句，第二阶段使用自然语言解析器解析输出结果得到目标逻辑形式，该训练过程被分成了预训练和循环学习两个阶段，通过三项定制的自监督任务激活无监督的语义模型，实验结果表明该框架是有效的且与监督式训练相兼容。

May, 2020