语言模型的物理学：第 3.2 部分，知识操作

Sep, 2023

语言模型的物理学：第 3.2 部分，知识操作

Physics of Language Models: Part 3.2, Knowledge Manipulation

Zeyuan Allen-Zhu, Yuanzhi Li

TL;DR本文研究了语言模型在推理过程中利用存储的知识的能力，发现预训练的语言模型在知识检索方面表现出色，但在简单的分类、比较和逆向搜索任务方面表现较差，即使在训练和推理过程中使用了控制思维链。研究的主要贡献是通过一个合成数据集的控制实验，证实了语言模型无法有效地操作预训练数据中的知识，即使这些知识完全存储且模型可以完全提取，且进行了适当的指导微调。

Abstract

language models can store vast amounts of factual knowledge, but their ability to use this knowledge for logical reasoning remains questionable. This paper explores a language model's ability to manipulate its stored knowledge during inference. We focus on four manipulation types:

language models knowledge manipulation retrieval classification comparison

发现论文，激发创造

语言模型的物理学：3.1 部分，知识存储与提取

通过对半合成的传记数据进行深入研究，我们发现大语言模型的知识提取能力与训练数据的多样性之间存在着关联，同时通过 (几乎) 线性推测发现模型是否线性地编码实体名称的隐藏嵌入中的知识属性，或者在训练文本中其他标记的嵌入之间存在着强相关性。

Sep, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

语言模型中事实性回忆机制的表征

利用头部归因方法控制模型行为，将模型表现局部化，并提供了一种概念验证方法，展示如何在运行时动态地控制模型行为。

Oct, 2023

重新思考语言模型作为符号知识图谱

基于符号的知识图谱、语言模型和评估指标对知识图谱的拓扑属性和语义属性进行了详尽的评估，发现语言模型在提取符号知识方面能力受到限制。

Aug, 2023

知识密集型多步问题的交错检索与思维链推理

提出了 IRCoT 方法，在多步 QA 过程中使用检索和 CoT 交替进行，同时使用检索的结果来改善 CoT。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 IIRC 四个数据集上，使用 IRCoT 方法取得了显著的检索和 QA 性能改进，即便是在小型模型 T5-Flan-large（0.7B）上也能奏效。

Dec, 2022

语言模型的物理学：第 3.3 部分，知识容量的规模律

通过多个受控数据集，我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外，我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。

Apr, 2024

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

大型语言模型向人类类似的概念组织收敛

大型语言模型在知识提取、推理和对话方面显示出与人类相似的表现，但是它们的表现究竟是通过记忆和模式匹配来解释的，还是反映了人类般的推理语义和世界知识，存在争议。本文展示了大型语言模型学习以类似于知识库的方式组织概念，这些知识库提供了推理语义和世界知识的大规模高质量表征。大型语言模型似乎从原始文本中引出这种知识，而更大更好的模型表现出更符合人类的概念组织，涵盖了四个系列的语言模型和三个知识图谱嵌入。

Aug, 2023

关于大语言模型的规划、搜索和记忆能力

通过对 GPT-4 在规划子领域中的表现进行全面检查，我们鉴定了大型语言模型在解决规划问题方面的优势和限制，并提出了改进领域特定大型语言模型的思维链能力的方法。这些结果为大语言模型在规划领域的潜在应用提供了宝贵的见解，并为未来的研究克服其限制和拓展其能力铺平了道路。

Sep, 2023

语言模型是否容易被语言幻觉欺骗？在句法方面较容易，在语义方面较困难

语言模型的能力与人类在语法判断任务中的重叠度已被讨论，但当人类在语言处理中系统性地出现错误时，我们是否应该期望语言模型像语言认知模型一样模仿人类行为？通过研究与 “语言幻觉” 相关的语言模型更微妙的判断，本文回答了这个问题。研究发现，与需要复杂语义理解的比较幻觉和深度冲击幻觉相比，语言模型所代表的概率更可能与人类对结构依赖的 “负极性项目幻觉” 误判一致。没有一个单独的语言模型或度量方法能完全一致地与人类行为相符。最终，本文展示了语言模型在作为人类语言处理的认知模型以及识别复杂语言材料中微妙但关键信息的能力受到限制。

Nov, 2023