Dec, 2022

为什么 GPT 能够学会上下文?语言模型秘密地作为元优化器执行梯度下降

TL;DR本文将语言模型视为元优化器,在理论上和实验上探究了上下文内学习(ICL)的工作机理,通过解释 Transformer 注意力的梯度下降优化以及设计基于动量的注意力,揭示了 ICL 的内在特性和更好的应用前景。