Sep, 2023

语言模型的物理学:第 3.2 部分,知识操作

TL;DR本文研究了语言模型在推理过程中利用存储的知识的能力,发现预训练的语言模型在知识检索方面表现出色,但在简单的分类、比较和逆向搜索任务方面表现较差,即使在训练和推理过程中使用了控制思维链。研究的主要贡献是通过一个合成数据集的控制实验,证实了语言模型无法有效地操作预训练数据中的知识,即使这些知识完全存储且模型可以完全提取,且进行了适当的指导微调。