多源枢轴机制对于低资源印度语翻译的效果如何？

Jun, 2024

多源枢轴机制对于低资源印度语翻译的效果如何？

How effective is Multi-source pivoting for Translation of Low Resource Indian Languages?

Pranav Gaikwad, Meet Doshi, Raj Dabre, Pushpak Bhattacharyya

TL;DR使用多种多源技术和枢轴翻译，本文研究了从英语到印度语言的机器翻译，发现多源枢轴翻译虽然只有微小改进，但与以前的论断相反，这些改进可以通过合成目标语言数据来增强。我们认为，多源枢轴翻译是一种有前景的低资源翻译方向。

Abstract

machine translation (MT) between linguistically dissimilar languages is challenging, especially due to the scarcity of parallel corpora. Prior works suggest that →

machine translation pivoting multi-source translation low-resource translation parallel corpora

发现论文，激发创造

使用中间语言进行神经机器翻译

介绍了基于枢轴语言的神经机器翻译的联合训练算法，通过提出三种方法来连接两个模型并在训练期间使其相互交互，实验表明，与独立训练相比，源 - 枢轴和枢轴 - 目标模型的联合训练在各种语言中都取得了显著的改进。

Nov, 2016

同时多支点神经机器翻译

该论文以多种语言为中介语，提出利用多种语言进行平行翻译的思路，应用于实现实时语音翻译并进一步改进了 BLEU 指数。

Apr, 2021

多枢轴集成和大规模多语言机器翻译模型的研究

大规模多语言机器翻译模型在一种模型中翻译大量语言，但在低资源和非常低资源的翻译方向上的性能有限。在这篇论文中，我们重新审视通过多个语言进行枢轴翻译的方法。我们提出了 MaxEns 作为一种组合策略，偏向于最自信的预测，以减少翻译中出现的幻觉问题。通过在 FLORES 基准测试中评估不同策略，我们证明 MaxEns 提高低资源语言的翻译质量，同时减少翻译中的幻觉，相对于直接翻译和平均方法。平均而言，多枢轴策略仍然落后于使用英语作为单个枢轴语言，这引发了如何为特定翻译方向确定最佳枢轴策略的问题。

Nov, 2023

从词到句：基于视觉桥接的零资源机器翻译渐进式学习方法

本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法，从词级别开始逐步学习，最终将学习到的词汇级别的翻译应用在句子级别的翻译上，从而有效减少了图片噪声对模型学习的干扰，在两个广泛使用的基于图像引导的翻译数据集上，该方法明显优于其他最先进的方法。

Jun, 2019

基于轴心的非英语语言神经机器翻译迁移学习

本文提出了三种有效的预训练策略来提高神经机器翻译的性能，通过使用一种中间语言来实现对原语言和目标语言对之间关系的增强，从而在 WMT 2019 的法德和德捷语任务中超过了多语言模型，同时优化了零样本 / 零资源情境下的翻译效果。

Sep, 2019

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

利用相关资源丰富的语言来改进资源匮乏语言的统计机器翻译

本文提出了一种新颖的语言无关方法，通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译，以达到减少训练数据的目的，并且评估结果表明，在少量并行语料库的情况下，改进了印尼语到英语和西班牙语到英语的翻译质量。

Jan, 2014

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

基于中间语言级联翻译模型的端到端训练与解码

本文提出了一种基于端到端训练方法的级联翻译模型，并配置了一种改进的解码算法，该方法可以有效地利用极少量的 (parallel) data 来提高翻译质量。

May, 2023

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020