发现用于语言无关的多语言表示的低秩子空间

EMNLPJan, 2024

发现用于语言无关的多语言表示的低秩子空间

Discovering Low-rank Subspaces for Language-agnostic Multilingual Representations

Zhihui Xie, Handong Zhao, Tong Yu, Shuai Li

TL;DR在这项工作中，我们提出了一种新的方法，通过从多语言嵌入空间中投影掉语言特定因素，以完全利用语义信息，并消除语言身份信号，从而在语义任务中取得更好的结果。

Abstract

large pretrained multilingual language models (ML-LMs) have shown remarkable capabilities of zero-shot cross-lingual transfer, without direct cross-lingual supervision. While these results are promising, follow-u

large pretrained multilingual language models zero-shot cross-lingual transfer language identity information multilingual embedding spaces semantic tasks

发现论文，激发创造

诱导语言无关的多语言表示

本研究提出三种方法以提高跨语言表示的效果，包括将目标语言的向量空间重新对齐到源语言，去除语言特异性的均值和方差，以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现，这些方法联合使用可以降低跨语言转移障碍。

Aug, 2020

消除多语言表示中的自我语言偏差的简单有效方法

采用几何代数和语义空间的新角度，提出 “语言信息移除” 方法，通过从多语种表示中分离语言身份信息，进一步研究语言无关和语义 - 语言信息分离的问题。该方法简单而高效，只使用简单的线性运算，并在多语种嵌入空间的弱对齐模型上实现了近乎 100％的显着性能提高。在 Amazon Reviews 和 XEVAL 数据集上进一步验证，显示该方法能够提高跨语言转移性能。

Sep, 2021

多语言语言模型表示的几何学

本文使用 XLM-R 为案例研究，研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息，并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息，使其能够提取下游任务和跨语言传递学习的各种特征。

May, 2022

无监督的跨语言词向量空间转移

本文提出了一种基于无监督学习的算法，通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数，使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。

Sep, 2018

在上下文嵌入中定位语言特定信息

本研究旨在了解多语言预训练语言模型（MPLMs）在不受监督学习方式下与其多语性之间的关系，指出 MPLMs 的表示是否是语言无关的或与学习任务预测头相互交错，同时，我们定位了 MPLM 中的语言特定信息，并确定其维度和发生这些信息的层次，以及该信息散布在许多维度中，并可投影为线性子空间。

Sep, 2021

基于子空间嵌入的轻量级神经语言模型适应

我们提出了一种新的紧凑嵌入结构，通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程，来减少预训练语言模型的内存占用，牺牲高达 4% 的绝对准确率。我们的实验结果表明，子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比，达到了超过 99.8% 的压缩率。

Aug, 2023

无监督和半监督跨语言词嵌入学习的鲁棒性研究

本文通过大量的评估，分析了多种跨语言嵌入模型的优劣，特别是在目标语言，训练语料库和监督程度等不同方面的限制，从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。

Aug, 2019

多语言词嵌入的无监督超级对齐

本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题，并提出了一种新的方案来保证映射的组合性，从而在维持直接单词翻译的竞争性表现的同时，实现了间接单词翻译的更好对齐。

Nov, 2018

编码器内部的语言转换：关于零翻译多语言中的表示转换

这篇论文通过研究多语言神经机器翻译中的表示转移，揭示了导致零射翻译不足的表示问题。研究中引入了身份对（一个句子翻译为自身），以解决多语言研究中基准测量缺失的问题，因为身份对代表了所有语言转移中的最佳表示状态。通过分析，我们证明编码器将源语言转移到目标语言的表示子空间，而不是语言无关的状态。因此，零射翻译不足是因为表示与其他语言相混合并且未能有效地转移到目标语言。基于我们的发现，我们提出了两种方法：1）在编码器中使用低秩语言特定嵌入，2）在解码器中进行语言特定的对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果表明，我们的方法显著提高了零射翻译的性能，改善了语言转移能力，从而为我们的结论提供了实际证据。

Jun, 2024

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

利用信息论探测套件，我们分析了 9 项任务，涵盖语法、语义和推理，在 2 百万次预训练步骤和 5 个种子中，识别了关键学习阶段，语法知识在全面训练的 0.5% 后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Oct, 2023