透过表征镜头观察多语言机器翻译中的知识转移

May, 2023

透过表征镜头观察多语言机器翻译中的知识转移

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens

David Stap, Vlad Niculae, Christof Monz

TL;DR该研究认为，单纯使用翻译质量度量多语言神经机器翻译中的知识转移并不足够。为了支撑这一观点，引入了 “表示转移潜力”（RTP），用于衡量不同语言之间的表示相似性，并发现 RTP 可测量正向和负向的迁移（干扰），并且 RTP 与翻译质量变化强相关。除此之外，还研究了影响迁移的数据和语言特征，并认为多重并行重叠是一个重要而未被充分利用的特征。基于此，开发了一种新型训练方案，使用辅助相似性损失，通过利用多重并行数据鼓励表示在不同语言之间更具不变性。证明这种方法可提高多种数据和模型情况下低资源语言的翻译质量。

Abstract

We argue that translation quality alone is not a sufficient metric for measuring knowledge transfer in multilingual neural machine translation. To support this claim, we introduce representational transfer potential

multilingual neural machine translation representational transfer potential positive and negative transfer multi-parallel overlap auxiliary similarity loss

发现论文，激发创造

语言表征投射：我们能在多语言语言模型中跨语言转移事实知识吗？

通过两个无参数的语言表示投影模块（LRP2），本文调查了从英语到非英语语言的显式传输相对丰富的事实知识的可行性，并在 mLAMA 数据集上的实验结果证明了 LRP2 显著提高了事实知识检索精度，促进了对多种非英语语言的知识传递能力。

Nov, 2023

编码器内部的语言转换：关于零翻译多语言中的表示转换

这篇论文通过研究多语言神经机器翻译中的表示转移，揭示了导致零射翻译不足的表示问题。研究中引入了身份对（一个句子翻译为自身），以解决多语言研究中基准测量缺失的问题，因为身份对代表了所有语言转移中的最佳表示状态。通过分析，我们证明编码器将源语言转移到目标语言的表示子空间，而不是语言无关的状态。因此，零射翻译不足是因为表示与其他语言相混合并且未能有效地转移到目标语言。基于我们的发现，我们提出了两种方法：1）在编码器中使用低秩语言特定嵌入，2）在解码器中进行语言特定的对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果表明，我们的方法显著提高了零射翻译的性能，改善了语言转移能力，从而为我们的结论提供了实际证据。

Jun, 2024

多语种机器翻译中目标方传输和正则化的角色解构

多语言机器翻译（MMT）通过不同语言对之间的知识迁移而受益。本文通过在目标辅助语言方面进行大规模研究，涉及语言相似性和语料库大小等两个维度，展示了知识迁移对主要语言对的动态影响。我们发现，在语言相似的辅助目标语言中，存在强烈的正向知识迁移能力，并且随着相似目标语言规模的增加，正向迁移效果进一步增强，有利于主要语言对。与此同时，我们发现远距离的辅助目标语言即使拥有较小的正向迁移能力，也能意外地对主要语言对产生正面影响。此外，我们还展示了远距离的辅助目标语言可以作为一种正则化器，通过增强广义化和模型推理校正来提高翻译性能。

Feb, 2024

利用神经机器翻译学习联合多语句子表示

本研究使用神经机器翻译框架跨越六种完全不同的语言，在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式，有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式，对我们的模型学习出的 140 万个句子表示进行比较，并研究了相似句子的特征。实验证据表明，嵌入空间中相似的句子实际上具有高度的语义相关性，但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。

Apr, 2017

机器翻译：跨语言预训练和跨语言迁移学习的桥梁吗？

利用机器翻译作为持续训练目标来增强语言表示学习在跨语言学习中的作用研究发现，机器翻译无法增强多个跨语言自然语言理解任务中的跨语言表示学习，这对未来的跨语言转移研究有重要影响。

Mar, 2024

面向大规模多语言神经机器翻译的信息性语言表示学习

本研究提出了两种方法，即语言嵌入体现和语言感知多头注意力，以学习信息量丰富的语言表示，从而缓解在多语言神经机器翻译模型中引导翻译的语言令牌的失效问题，并且在两个大规模多语言神经机器翻译数据集上取得了显著的性能提升。同时，进一步的语言类型学预测实验证明，我们的方法学习到的基于矩阵的语言表示可以捕捉丰富的语言类型学特征。

Sep, 2022

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019

跨语言机器翻译中的词汇表不足：增加语言间表示单词的相似度

本论文提出了一种新的共享词汇的设计方法，通过定义词级别信息传递路径和使用图网络来融合跨语言的词嵌入，避免了多语言之间文字编码的问题，实验还表明该方法在高低资源多语言机器翻译中可实现显著的 BLEU 分数改进，且只需额外训练少于 1.0％的可训练参数，计算成本增加有限。

May, 2023

利用通用的表达和交叉映射提高零阶多语种翻译

提出了一种基于状态移动距离的多对多跨语言神经机器翻译模型，通过学习通用表示和跨映射关系，可以实现未经训练的语言对之间的零 - shot 翻译，实验证明该方法可以改善语义空间的对齐和预测的一致性。

Oct, 2022

探索多语和双语翻译模型之间的表征差异

探讨了多语言翻译中双语模型和一对多多语言模型的在表示上的几何差异，发现多语言解码器的表示比双语解码器的表示具有更低的等向性，限制了剩余的表达能力，并分析了这种差异的原因。

May, 2023