ACLJun, 2024

通过任务空间解释语言模型

TL;DR通过构建语言任务空间,借助相似性探测与梯度差分的微调方法,研究发现大型语言模型更好地泛化到语言任务的总体概念,利用其共享结构。此外,预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点,这可能解释了语言模型缺乏成功的课程策略的原因。