使用命题探测在语言模型中监测潜在世界状态

Jun, 2024

使用命题探测在语言模型中监测潜在世界状态

Monitoring Latent World States in Language Models with Propositional Probes

Jiahai Feng, Stuart Russell, Jacob Steinhardt

TL;DR语言模型在其输入语境中容易受到偏见、阿谀奉承、后门等倾向的影响，解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。本研究假设语言模型在一个潜在的世界模型中表示其输入语境，并通过 “命题探测器” 提取这个潜在的世界状态。

Abstract

language models are susceptible to bias, sycophancy, backdoors, and other tendencies that lead to unfaithful responses to the input context. Interpreting internal states of language models could help monitor and

language models latent world model propositional probes binding subspace unfaithful behavior

发现论文，激发创造

一种隐变量模型用于内部探测

本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置，并提出一个可行的变分逼近方法，用于求解对数似然函数计算，结果表明这个模型能够获得更好的内部探测精度，并且在跨语言的形态句法方面表现良好。

Jan, 2022

语言模型中的真值判断：信念方向是上下文敏感的

我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Apr, 2024

多语言模型中的语言身份反事实检测

利用一个名为 AlterRep 的方法，运用因果分析技术对多语言模型的内部结构进行研究，发现大规模多语言模型中存在着既有语言特定的组件又有语言通用组件，并展示了反事实推理方法在多语言模型上的应用前景。

Oct, 2023

语言模型中心理状态表征的基准测试

用各种语言模型和不同的模型大小、微调方法和提示设计进行广泛的基准测试，研究了心理状态表征的鲁棒性和记忆问题，并首次研究了提示变化对心智任务的探测性能的影响。结果表明，模型对他人信念的内部表征质量随模型大小和微调的增加而提高。此外，我们证明了模型的表征对提示的变化非常敏感，即使这些变化本应有益。最后，通过引导模型的激活，成功改善了模型的推理性能，无需训练任何探测器。

Jun, 2024

提示作为探究：利用语言模型进行知识库构建

本文提出了一种名为 ProP 的方法，它利用 GPT-3 这个大型语言模型进行知识库构建任务，结合多种提示技巧，结果表明手动提示的重要性、变长回答集的有效用处以及实体别名字典的效用等，从而获得了较高的预测质量。

Aug, 2022

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021

无须监督，发现语言模型中的潜在知识

提出了一种使用纯无监督方式直接在语言模型的内部激活中查找潜在知识的方法，通过在激活空间中找到满足逻辑一致性属性的方向，可以精确回答只有未标注模型激活的肯定 - 否定问题。在跨 6 个模型和 10 个问答数据集的情况下，尽管不使用监督和模型输出，该方法可以恢复大型语言模型中的各种知识，并且平均超过零 - shot 准确性 4％。结果初步表明，即使我们无法访问显式的基础真值标签，也可以发现语言模型所知道的与它们所说的不同。同时，该方法可以将 prompt 敏感度减半，并在要求模型生成错误答案时仍然保持高准确性。

Dec, 2022

认知失调：为何语言模型输出与内部真实性表征不一致？

神经语言模型可用于评估事实陈述的真实性，工作发现查询与探测过程有时存在不一致性，故探测更为准确，且存在三种不一致类别：编造、欺骗和异质性。

Nov, 2023

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020