May, 2024

自校正的理论认识与上下文对齐

TL;DR基于一种类似于对齐任务的简化设置,我们从上下文学习的角度对自我纠正进行理论分析,显示出大语言模型通过给予相对准确的自我检查作为奖励,能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论,阐述了现实变换器的几个关键设计在自我纠正中的作用:softmax 关注、多头关注和 MLP 块。经过广泛的合成数据集验证,我们进一步阐述了自我纠正的新应用,例如抵制大型语言模型越狱,其中简单的自我纠正步骤确实产生了很大的差异。我们相信这些发现将激发进一步研究自我纠正的理解、利用和增强,以构建更好的基础模型。