May, 2023

面向上下文学习的何以及如何学习?贝叶斯模型平均、参数化和泛化

TL;DR本文对 In-Context Learning (ICL) 的学习器类型、性能度量、误差率以及 Transformer 架构和 ICL 的关系进行了全面深入的研究,初步证明 ICL 隐含地实现了贝叶斯模型平均算法并受注意机制参数化,同时建立 ICL 遗憾、近似和泛化误差的界限,从而加深了我们对现代语言模型的关键方面的认识。