Oct, 2023

预训练的Transformer是否真的通过梯度下降来学习上下文?

TL;DR在实际的自然语言环境中,对比了 In-Context Learning (ICL) 和 Gradient Descent (GD) 在语言模型上的表现差异,发现二者在适应语言模型的输出分布上存在不一致的行为。