May, 2024

线性注意力下上下文学习的渐近理论

TL;DRTransformers 在无需显式先前训练的情况下,基于输入示例学习和执行任务的能力,也称为上下文学习(ICL),是其成功的基础。本研究提供了关于所需样本复杂性、预训练任务多样性和上下文长度对成功 ICL 的明确答案,采用线性关注在 ICL 线性回归任务的可解模型中推导出了学习曲线的锐利渐近线。通过实验证明了随着先前训练示例数量增加,学习曲线具有双峰,且模型的行为在低和高任务多样性之间出现相变:在低多样性情况下,模型趋向于记忆训练任务,而在高多样性情况下,它实现了真正的上下文学习并在预训练任务范围之外进行泛化。这些理论洞见通过线性关注和完全非线性 Transformer 架构的实验进行了经验证实。