Nov, 2023

上下文学习与梯度下降再探讨

TL;DR在这项工作中,我们重新审视了 ICL 和基于梯度下降(GD)的微调之间的比较,并研究了等效过程必须遵循的 ICL 的性质。我们强调了 ICL 和标准微调之间信息流动的主要差异,即 ICL 只能在每个点上依靠较低层次的信息,而微调依赖于更深层次的损失梯度。我们将这种差异称为层因果性,并表明层因果性的微调过程与 ICL 相媲美,在大多数相关指标上甚至更好。据我们所知,这是第一项明确讨论这种差异并提出最小改变解决方案的工作。