本研究提出三种方法以提高跨语言表示的效果,包括将目标语言的向量空间重新对齐到源语言,去除语言特异性的均值和方差,以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现,这些方法联合使用可以降低跨语言转移障碍。
Aug, 2020
采用几何代数和语义空间的新角度,提出 “语言信息移除” 方法,通过从多语种表示中分离语言身份信息,进一步研究语言无关和语义 - 语言信息分离的问题。该方法简单而高效,只使用简单的线性运算,并在多语种嵌入空间的弱对齐模型上实现了近乎 100%的显着性能提高。在 Amazon Reviews 和 XEVAL 数据集上进一步验证,显示该方法能够提高跨语言转移性能。
Sep, 2021
本文使用 XLM-R 为案例研究,研究了多语言语言模型如何在维持共享多语言表示空间同时在每种语言中编码语言敏感信息,并证明了多语言语言模型沿着语言敏感和语言中性轴编码信息,使其能够提取下游任务和跨语言传递学习的各种特征。
May, 2022
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018
本研究旨在了解多语言预训练语言模型(MPLMs)在不受监督学习方式下与其多语性之间的关系,指出 MPLMs 的表示是否是语言无关的或与学习任务预测头相互交错,同时,我们定位了 MPLM 中的语言特定信息,并确定其维度和发生这些信息的层次,以及该信息散布在许多维度中,并可投影为线性子空间。
我们提出了一种新的紧凑嵌入结构,通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程,来减少预训练语言模型的内存占用,牺牲高达 4% 的绝对准确率。我们的实验结果表明,子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比,达到了超过 99.8% 的压缩率。
Aug, 2023
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
Nov, 2018
这篇论文通过研究多语言神经机器翻译中的表示转移,揭示了导致零射翻译不足的表示问题。研究中引入了身份对(一个句子翻译为自身),以解决多语言研究中基准测量缺失的问题,因为身份对代表了所有语言转移中的最佳表示状态。通过分析,我们证明编码器将源语言转移到目标语言的表示子空间,而不是语言无关的状态。因此,零射翻译不足是因为表示与其他语言相混合并且未能有效地转移到目标语言。基于我们的发现,我们提出了两种方法:1)在编码器中使用低秩语言特定嵌入,2)在解码器中进行语言特定的对比学习表示。在 Europarl-15、TED-19 和 OPUS-100 数据集上的实验结果表明,我们的方法显著提高了零射翻译的性能,改善了语言转移能力,从而为我们的结论提供了实际证据。
Jun, 2024
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023