以字节衡量跨语言转移
通过实验证明多语言模型具有零 - shot 跨语言知识转移的能力并且在下游任务中表现出较高性能,但我们对当前评估基准和设置是否能准确衡量零 - shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置,表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素,如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见,尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点,呼吁对多语言模型的跨语言能力有更细致的理解。
Feb, 2024
本文研究预训练语言模型在跨语言转移方面的表现,发现常见的英文预训练集中包含大量非英文文本,即使数量仅占不到 1%,也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据,也能够促进模型在目标语言上的跨语言转移,并且目标语言性能与预训练中见到的该语言数据量强相关。因此,我们认为在评估跨语言转移时,应该考虑到预训练模型不是真正的单语言模型。
Apr, 2022
大型语言模型(LLMs)在提高高资源编程语言的开发者生产力方面表现出色。然而,许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs,本研究通过使用源语言数据来提高目标语言的模型性能,并针对 4 个任务进行了广泛实验,以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。
Oct, 2023
本文在分析预训练 mT5 模型对 90 种语言对之间交叉语言联系学习时,发现源语言和目标语言的语法、形态和音韵相似度对于跨语言传递的表现具有良好的预测性,可望提高零样本性能表现。
Dec, 2022
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022
本研究旨在探究跨语言预训练模型的学习过程,发现该模型在语言内表现出较高的性能,复杂任务在低级语言技能前学习。添加不同的语言对跨语言转移的学习时机不同,并且最终模型层表现存在时间衰减现象,语言知识向网络底层传递。
May, 2022
研究了现代神经语言模型的多语言训练中的字面表示空间和纯语法知识的共享,发现暴露我们的 LMs 与相关语言并不总是增加目标语言的语法知识,并且在语义转移的最佳条件下并不一定是语法转移的最佳条件。
Mar, 2020
本文研究表明:BERT 模型的预训练语言的选择影响跨语言转移,基于平衡数据的零 - shot 性能检验表明,改善下游表现的预训练语言被称为捐赠者,而在零 - shot 性能方面得到改善的语言则被称为接受者。我们提出了一种具有二次时间复杂度的方法来估计这些关系,研究结果揭示了该方法在涵盖不同语言特征和两个下游任务的多种语言上的有效性,这可以帮助开发者选择更好的预训练配置。
May, 2022
该论文探讨了如何自动选择最佳转移语言作为排名问题,建立模型考虑诸如语言相似性,类型学特性,词汇重叠或可用数据大小等因素以执行这种预测。在代表性 NLP 任务的实验中,我们证明了我们的模型比单一特征的单独考虑的基准线更好地预测良好的转移语言,并了解了哪些特征对每种不同的 NLP 任务是最有信息量的,这可能会为未来的专家选择提供帮助。
May, 2019
本研究采用跨语言后训练 (XPT) 基于单一低资源语言进行了广泛的评估和探测实验,结果显示 XPT 不仅优于或与训练数据数量更多的单语模型的表现相当,而且转移过程非常高效。
Sep, 2022