多源枢轴机制对于低资源印度语翻译的效果如何?
介绍了基于枢轴语言的神经机器翻译的联合训练算法,通过提出三种方法来连接两个模型并在训练期间使其相互交互,实验表明,与独立训练相比,源 - 枢轴和枢轴 - 目标模型的联合训练在各种语言中都取得了显著的改进。
Nov, 2016
大规模多语言机器翻译模型在一种模型中翻译大量语言,但在低资源和非常低资源的翻译方向上的性能有限。在这篇论文中,我们重新审视通过多个语言进行枢轴翻译的方法。我们提出了 MaxEns 作为一种组合策略,偏向于最自信的预测,以减少翻译中出现的幻觉问题。通过在 FLORES 基准测试中评估不同策略,我们证明 MaxEns 提高低资源语言的翻译质量,同时减少翻译中的幻觉,相对于直接翻译和平均方法。平均而言,多枢轴策略仍然落后于使用英语作为单个枢轴语言,这引发了如何为特定翻译方向确定最佳枢轴策略的问题。
Nov, 2023
本文提出了一种基于图片引导的无资源机器翻译渐进式学习方法,从词级别开始逐步学习,最终将学习到的词汇级别的翻译应用在句子级别的翻译上,从而有效减少了图片噪声对模型学习的干扰,在两个广泛使用的基于图像引导的翻译数据集上,该方法明显优于其他最先进的方法。
Jun, 2019
本文提出了三种有效的预训练策略来提高神经机器翻译的性能,通过使用一种中间语言来实现对原语言和目标语言对之间关系的增强,从而在 WMT 2019 的 法德和德捷语任务中超过了多语言模型,同时优化了零样本 / 零资源情境下的翻译效果。
Sep, 2019
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。
Aug, 2020
本文提出了一种新颖的语言无关方法,通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译,以达到减少训练数据的目的,并且评估结果表明,在少量并行语料库的情况下,改进了印尼语到英语和西班牙语到英语的翻译质量。
Jan, 2014
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本文提出了一种基于端到端训练方法的级联翻译模型,并配置了一种改进的解码算法,该方法可以有效地利用极少量的 (parallel) data 来提高翻译质量。
May, 2023
本文研究了针对低资源稀有语种的无监督翻译问题,提出了一个三阶段训练方案的多语种模型,结合了单语和辅助并行数据,取得了明显优于当前无监督基准线的效果。
Sep, 2020