Dec, 2022
为什么 GPT 能够学会上下文?语言模型秘密地作为元优化器执行梯度下降
Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui...
TL;DR本文将语言模型视为元优化器,在理论上和实验上探究了上下文内学习(ICL)的工作机理,通过解释 Transformer 注意力的梯度下降优化以及设计基于动量的注意力,揭示了 ICL 的内在特性和更好的应用前景。