多语言语言模型的单/跨语言预训练动态分析
使用一种新的层摘除技术和模型内部表示的分析方法,我们发现多语言 BERT 可看作两个子网络的堆叠:一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键,在微调过程中大部分不变,而任务预测对传递影响很小,可以在微调期间重新初始化。
Jan, 2021
本研究旨在探讨预训练语言模型在不同数量、相关性条件下的零样本学习能力,并发现通过模型适应,增加预训练语言数量能够提高语言模型的性能。
Mar, 2022
本综述论文旨在调查不同因素对多语言预训练语言模型实现零-shot跨语言转移的贡献,提供了对过去研究的实证证据概要,并识别一致性结果以及解决矛盾之处,进而为未来研究提供参考点与指导。
May, 2023
通过与只使用英文进行微调的模型相比较,研究发现只使用三种语言进行多语种微调可以显著提高模型在生成式任务上的跨语言转移能力,而在高度结构化的任务上影响较小。
Dec, 2023
通过实验证明多语言模型具有零-shot 跨语言知识转移的能力并且在下游任务中表现出较高性能,但我们对当前评估基准和设置是否能准确衡量零-shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置,表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素,如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见,尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点,呼吁对多语言模型的跨语言能力有更细致的理解。
Feb, 2024
预训练多语言模型的容量和效果已经得到确认,但对于零样本跨语言转移中的积极或消极转移现象以及语言选择的影响还需进一步理解,本研究提出了一种高效的方法,通过专用适配器单元将下游任务与语言分离,发现一些语言对其他语言影响不大,而一些未在预训练中出现的语言对不同目标语言具有极大益处或有害,我们发现没有任何一种语言对所有目标语言都有益,但奇怪的是我们观察到,之前未被多语言模型预训练见过的语言总是从任何语言的转移中受益,此外,我们利用模块化方法高效量化负面干涉并相应分类语言,最后,我们提供了一系列有希望改善目标语言性能的转移-目标语言配置。
Mar, 2024
通过实验证实,多语言预训练可以在源语言和目标语言之间进行跨语言迁移,且不仅语言污染和语言近似性是影响迁移的因素,还有一种语言无关的知识组件,可以用于跨语言迁移和知识传递。
Apr, 2024
预训练的多语言模型在交叉语言迁移方面展现出了能力,本研究旨在探讨学习语言中性表示的因素以及该表示是否足以促进交叉语言迁移。通过引入“锚定标记”,可以帮助跨语言表示对齐,而仅仅学习语言中性表示是不足以促进交叉语言迁移的。基于研究结果,提出一种新的方法 - 统一输出空间的多语言预训练 - 既能够诱导学习语言中性表示,又能促进交叉语言迁移。
Apr, 2024
多语言大型语言模型通过隐式对齐语言和神经元重叠达到零-shot 跨语言转移性能,本研究使用内在探测技术通过检查点观察到神经元重叠和下游性能之间的高相关性,同时探测到预训练过程中隐式对齐和多语言能力的退化现象,为多语言预训练动态提供了新的见解。
Jun, 2024