EMNLPOct, 2023

子空间编年史:语言信息在语言模型训练中的产生、转变和交互

TL;DR利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。