匹配脚本,适应多语:分析多语言预训练对跨语言可迁移性的影响
预训练多语言模型的容量和效果已经得到确认,但对于零样本跨语言转移中的积极或消极转移现象以及语言选择的影响还需进一步理解,本研究提出了一种高效的方法,通过专用适配器单元将下游任务与语言分离,发现一些语言对其他语言影响不大,而一些未在预训练中出现的语言对不同目标语言具有极大益处或有害,我们发现没有任何一种语言对所有目标语言都有益,但奇怪的是我们观察到,之前未被多语言模型预训练见过的语言总是从任何语言的转移中受益,此外,我们利用模块化方法高效量化负面干涉并相应分类语言,最后,我们提供了一系列有希望改善目标语言性能的转移 - 目标语言配置。
Mar, 2024
本文研究了两个多语言语音模型在适应未见语言上的性能比较,发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现,与预训练方法的差异不相关。
May, 2023
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言 NMT 方法。
Dec, 2019
通过研究 204 种语言的多语言大型语言模型(MLLMs)在不同语言上的表现,考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响,并发现对于已知语言来说,预训练数据大小是最重要的因素,而对于未知语言来说,脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征,这些研究结果为当前 MLLMs 的优势和局限性提供了有价值的见解,并希望指导更有效、公平的多语言自然语言处理系统的开发。
Apr, 2024
通过实验证实,多语言预训练可以在源语言和目标语言之间进行跨语言迁移,且不仅语言污染和语言近似性是影响迁移的因素,还有一种语言无关的知识组件,可以用于跨语言迁移和知识传递。
Apr, 2024
本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究,发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习,即使训练集是自动从英语翻译而来。同时,该结论对于多语言零样本系统有着重要影响,并且应该指导未来的基准设计。
Jun, 2021
通过比较多语言和单语言模型,本文表明了在大量的原始数据上使用基于预训练语言模型的迁移学习在处理未见过的语言中存在多种行为,其中一些语言能够从迁移学习中受益,而另一些则似乎不行,我们还发现这种无法传递的失败很大程度上与用于书写这些语言的字符的影响有关,转写这些语言可以极大地提高后续任务的大规模多语言语言模型的能力。
Oct, 2020
使用新约圣经等语料,对现有方法对新语言进行预训练模型转移进行了评估,并发现继续预训练是最好的方法,并且在词性标注和命名实体识别等任务中可以获得高达 17.69%的精度提升。
Jun, 2021
本研究旨在探究跨语言预训练模型的学习过程,发现该模型在语言内表现出较高的性能,复杂任务在低级语言技能前学习。添加不同的语言对跨语言转移的学习时机不同,并且最终模型层表现存在时间衰减现象,语言知识向网络底层传递。
May, 2022
本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测,并将其视为多任务学习问题,从而建立准确的预测模型。我们的方法还同时进行了特征选择,识别出对多个任务的零样本表现具有影响的共同特征。
May, 2022