通过研究多语言掩码语言建模问题,我们阐述了若干因素,即为何这些模型在跨语言转移方面如此有效,并证明了即使单语料库之间没有共享词汇,也可以进行转移,只需在多语言编码器顶层存在一些共享参数。同时,我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐,这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模,这些对称性似乎是在联合训练过程中自动发现和对齐的。
Nov, 2019
通过在不同语言和不同自定义 NLP 任务上的实验研究,本文详细研究了 M-BERT 中不同组建在其跨语言能力中的贡献,发现词汇重叠在跨语言成功中起到微不足道的作用,而网络深度则是成功的一个重要因素。
Dec, 2019
通过评估六种最先进的大型语言模型在跨语言任务上的表现,本研究发现尽管这些模型在机器翻译和嵌入空间分析上展现了表层的跨语言能力,但在更深层次的跨语言知识转移上存在困难,揭示了跨语言知识壁垒的存在。同时提出在混合语言数据上对大型语言模型进行微调的方法,有效减少了这些差距,甚至在使用维基文本等域外数据集时也能取得良好效果。研究发现需要明确的优化方式来发挥大型语言模型的完整跨语言潜力。
Jun, 2024
多语言语言模型(MLLMs)展现了强大的跨语言转移能力,本研究旨在调查源语言应用于目标语言的效果,特别是在扰动输入测试集的情况下,发现命名实体识别的跨语言转移主要取决于实体块的重叠,研究结果提供了宝贵的跨语言转移见解并强调了在跨不同语言时考虑语言细微差异和潜在限制的必要性。
Mar, 2024
本文在分析预训练 mT5 模型对 90 种语言对之间交叉语言联系学习时,发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性,可望提高零样本性能表现。
Dec, 2022
多语言大型语言模型通过隐式对齐语言和神经元重叠达到零 - shot 跨语言转移性能,本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性,同时探测到预训练过程中隐式对齐和多语言能力的退化现象,为多语言预训练动态提供了新的见解。
该研究通过实现小型 BERT 模型的混合合成数据和自然数据训练,试图从语言学和结构特征两个方面,探究多语 BERT 能实现无监督跨语言转移的原因。其结果表明,在 lexical、syntactic 以及阅读理解方面,mBERT 已实现了高质量的多语言表征和跨语言转移功能。
May, 2020
该论文在多语言语言模型上进行了大规模实证研究,并发现词嵌入的对齐程度与零 - shot 迁移的性能密切相关,因此需要在多语言模型中专门改善词嵌入的对齐程度。
Oct, 2021
新颖的跨语言转移学习方法 - 从单语言模型到新语言,通过学习一个新的词嵌入矩阵来实现,该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。
Oct, 2019
本综述论文旨在调查不同因素对多语言预训练语言模型实现零 - shot 跨语言转移的贡献,提供了对过去研究的实证证据概要,并识别一致性结果以及解决矛盾之处,进而为未来研究提供参考点与指导。
May, 2023