探索多语和双语翻译模型之间的表征差异
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
通过研究多语言模型的语言学表示,我们发现针对低资源语言,以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好,有助于理解多语言模型的问题并提供改进方法。
Oct, 2023
这篇论文通过研究多语言神经机器翻译中的表示转移,揭示了导致零射翻译不足的表示问题。研究中引入了身份对(一个句子翻译为自身),以解决多语言研究中基准测量缺失的问题,因为身份对代表了所有语言转移中的最佳表示状态。通过分析,我们证明编码器将源语言转移到目标语言的表示子空间,而不是语言无关的状态。因此,零射翻译不足是因为表示与其他语言相混合并且未能有效地转移到目标语言。基于我们的发现,我们提出了两种方法:1)在编码器中使用低秩语言特定嵌入,2)在解码器中进行语言特定的对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果表明,我们的方法显著提高了零射翻译的性能,改善了语言转移能力,从而为我们的结论提供了实际证据。
Jun, 2024
研究了多语言语言模型不同语言的代表性,发现它们在欧几里得空间中是由独特的几何形状表示的,并且设计了跨语言相似性指数来度量语言之间的距离。结果表明,低资源语言在任何模型中都不如高资源语言表现得好。
May, 2023
提出了一种基于状态移动距离的多对多跨语言神经机器翻译模型,通过学习通用表示和跨映射关系,可以实现未经训练的语言对之间的零 - shot 翻译,实验证明该方法可以改善语义空间的对齐和预测的一致性。
Oct, 2022
本文使用 XLM-R 为案例研究,研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息,并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息,使其能够提取下游任务和跨语言传递学习的各种特征。
May, 2022
多语种模型的研究指出,语言不平衡是跨语言泛化的一个新的驱动因素,在实验中观察到,在训练中存在一种主要语言可以提升较不频繁的语言的性能,同时加强模型在不同语言间的表示对齐,同时本研究还提出了一些训练方案来改善克隆语言的性能。
Apr, 2024
本论文的研究目标是证明通用机器翻译算法的理论限制并提出更好的算法设计。研究发现在缺乏数据结构假设的情况下,任何算法都将在至少一个翻译任务上产生较大的翻译误差。此外,文档语料库采用编码器 - 解码器生成过程可用来实现 “泛化” 的自然概念,并且图像语言对之间的连接路径越长,需要的语言对数量也就越多。
Aug, 2020