跨模型反向翻译蒸馏用于无监督机器翻译

ICMLJun, 2020

跨模型反向翻译蒸馏用于无监督机器翻译

Cross-model Back-translated Distillation for Unsupervised Machine Translation

Xuan-Phi Nguyen, Shafiq Joty, Thanh-Tung Nguyen, Wu Kui, Ai Ti Aw

TL;DR本文介绍一种新的 UMT 框架组成部分叫做跨模型反向传递蒸馏（CBD）来促进数据多样性，与其他变体相比，CBD 更加有效

Abstract

Recent unsupervised machine translation (UMT) systems usually employ three main principles: initialization, language modeling and iterative back-translation, though they may apply them differently. Crucially, ite

unsupervised machine translation data diversification cross-model back-translated distillation language modeling iterative back-translation

发现论文，激发创造

使用去噪反向翻译提升级联无监督语音翻译

我们提出了一种基于叠层系统的语音翻译方法，使用全非配对数据训练了我们的无监督系统，并采用去噪回译法提高翻译结果。研究结果显示，我们的方法可以有效解决低资源语言数据难以获取的问题，并在某些语言对上表现出可比较的效果。

May, 2023

自蒸馏模型叠加在 200 + 种语言中实现跨语言自然语言理解

通过将 MT 编码器直接集成到 LLM 主干中，我们通过样本高效的自我蒸馏获得了 MT-LLM，从而将低资源语言与以英语为中心的 LLM 中嵌入的丰富知识相结合，实现了跨语言的多语言语言理解。

Jun, 2024

无监督生成式语言模型神经机器翻译

通过使用大型预训练语言模型的零 - shot 翻译能力，结合少样本放大、去噪和回译等方法，成功地实现了最新的无监督神经机器翻译模型，在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。

Oct, 2021

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

多语言双向无监督翻译：借助多语言微调和回译

本文提出了 EcXTra 方法，使用预训练模型，在 40 种语言间进行多语言微调，使用双向回译来生成合成的语言平行数据，达到了无监督 NMT 的翻译效果。该方法在处理低资源语言上表现出优秀的翻译性能，尤其在英语到哈萨克语的翻译任务上达到了新的最先进水平。

Sep, 2022

跨语言转移的高效语言特定模型精简

提出从大规模多语言 Transformer 中提取压缩的、语言特定的模型的方法，通过二阶段稀疏精调生成双语模型，从而在目标语言性能方面表现出最小的降级而且速度更快。

Jun, 2023

将无监督数据生成技术融入自监督神经机器翻译中，以应对低资源语言

本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法，该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能，特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。

Jul, 2021

利用课程学习提升无监督神经机器翻译的性能

通过提出一种课程学习方法，将从多个粒度发现语料库中的质量，逐渐利用从易到难的数据，通过平衡不同部分的质量得分，推动模型关注更高质量的数据，从而显著提高无监督神经机器翻译的翻译性能.

Sep, 2021

无监督机器翻译的快速反向翻译

利用 Transformer 和反向翻译算法，以及引入 Quick Back-Translation (QBT) 的改进方法，提高无监督机器翻译的数据通量、利用率及训练效率。

Dec, 2023

多语言无监督神经机器翻译的知识蒸馏

本文介绍了一种简单的方法，使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译，基于经验发现，提出了两种知识蒸馏方法，以进一步增强多语言机器翻译性能。我们的实验表明，在零 - shot 翻译方案中，在低资源语言对中减轻了糟糕的性能，并在一些非英语语言对之间实现了可靠性能。

Apr, 2020