May, 2023
面向上下文学习的何以及如何学习?贝叶斯模型平均、参数化和泛化
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization
Yufeng Zhang, Fengzhuo Zhang, Zhuoran Yang, Zhaoran Wang
TL;DR本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究,初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化,同时建立 ICL 遗憾、近似和泛化误差的界限,从而加深了我们对现代语言模型的关键方面的认识。