我们提出了一种基于叠层系统的语音翻译方法,使用全非配对数据训练了我们的无监督系统,并采用去噪回译法提高翻译结果。研究结果显示,我们的方法可以有效解决低资源语言数据难以获取的问题,并在某些语言对上表现出可比较的效果。
May, 2023
通过将 MT 编码器直接集成到 LLM 主干中,我们通过样本高效的自我蒸馏获得了 MT-LLM,从而将低资源语言与以英语为中心的 LLM 中嵌入的丰富知识相结合,实现了跨语言的多语言语言理解。
Jun, 2024
通过使用大型预训练语言模型的零 - shot 翻译能力,结合少样本放大、去噪和回译等方法,成功地实现了最新的无监督神经机器翻译模型,在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。
Oct, 2021
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文提出了 EcXTra 方法,使用预训练模型,在 40 种语言间进行多语言微调,使用双向回译来生成合成的语言平行数据,达到了无监督 NMT 的翻译效果。该方法在处理低资源语言上表现出优秀的翻译性能,尤其在英语到哈萨克语的翻译任务上达到了新的最先进水平。
Sep, 2022
提出从大规模多语言 Transformer 中提取压缩的、语言特定的模型的方法,通过二阶段稀疏精调生成双语模型,从而在目标语言性能方面表现出最小的降级而且速度更快。
Jun, 2023
本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法,该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能,特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。
Jul, 2021
通过提出一种课程学习方法,将从多个粒度发现语料库中的质量,逐渐利用从易到难的数据,通过平衡不同部分的质量得分,推动模型关注更高质量的数据,从而显著提高无监督神经机器翻译的翻译性能.
Sep, 2021
利用 Transformer 和反向翻译算法,以及引入 Quick Back-Translation (QBT) 的改进方法,提高无监督机器翻译的数据通量、利用率及训练效率。
Dec, 2023
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并在一些非英语语言对之间实现了可靠性能。
Apr, 2020