BUFFET: Few-shot 跨语言传递的大型语言模型基准测试
该论文介绍了一个名为 XTREME 的跨语言多任务基准测试,它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力,研究表明,跨语言模型在句法和句子检索任务上的性能仍有相当大的差距,该基准测试旨在促进跨语言学习方法的研究。
Mar, 2020
本文研究了大规模生成语言模型在多语言语料库上的跨语言泛化能力,实验结果表明,通过多语言提示方案,在许多任务中,模型可以在少量示例和无样本学习中完成良好的表现。
Dec, 2021
本文针对中文语言,介绍了中国 Few-shot Learning Evaluation 的基准测试(FewCLUE),该测试涵盖了九个任务,并系统地评估了五种最先进的少样本学习方法,和微调、零样本学习的表现比较,结果表明 PET 和 P-tuning 分别在 RoBERTa 和 ERNIE 上取得了最佳的综合性能,并为进一步推动中文 Few-shot Learning 的研究提供了工具包和在线排行榜。
Jul, 2021
通过对 GPT 和 T5 模型进行跨语言分类,本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本,且在跨语言预测方面表现显著优于随机预测,并与现有的最先进的跨语言模型具有竞争力。
Sep, 2021
LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比,LM-BFF 组合的技术在低资源环境下具有显著改进,最高可达 30%,平均提高 11%。
Dec, 2020
本文在多语言和交叉语言设置下,通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。
Jun, 2023
使用 RemBERT 模型的实验表明,模型大小限制了跨语言转换的效率,将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题,该方法可以使性能提高 10.5%,并仅使用 RemBERT 的三分之一的参数即可达到 92.6%的性能。
Oct, 2021
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
零 - shot 跨语言生成的前提是在一个语言上对多语言预训练语言模型进行微调,并将其用于其他语言的生成任务中。先前的研究注意到生成错误语言的频繁问题,并提出了解决方法,通常使用 mT5 作为基础模型。本研究在统一设置下比较了文献中提出的各种方法,还包括 mBART 和 NLLB-200 作为备用基础模型。我们首先强调了微调中使用的学习率调整的重要性,这有助于大幅减轻生成错误语言的问题。然后,我们展示了通过仔细调整学习率,简单的模型全面微调作为一个非常强大的基准,备选方法带来的只是微小的改进。最后,我们发现 mBART 的性能与相同大小的 mT5 相似,并且在某些情况下,NLLB-200 可以有竞争力。我们的最终模型达到了基于数据翻译的方法的性能水平,这通常被视为零 - shot 跨语言生成的上限基准。
Feb, 2024
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
Jan, 2022