语言模型中的真值判断：信念方向是上下文敏感的

Apr, 2024

语言模型中的真值判断：信念方向是上下文敏感的

Truth-value judgment in language models: belief directions are context sensitive

Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen

TL;DR我们通过对大型语言模型的隐空间进行研究发现，先前的关于模型的 ' 知识 ' 或' 信念 ' 的研究方法可以基于其隐空间中的方向来构建探测器，而我们的实验结果表明这些探测器的预测可能与前面的（相关）句子有条件关联，并且这种信念方向可以影响推理过程中的真相判断和上下文信息的整合。

Abstract

Recent work has demonstrated that the latent spaces of large language models (LLMs) contain directions predictive of the truth of sentences. Multiple methods recover such directions and build →

large language models probes context truth belief directions

发现论文，激发创造

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

一个语言模型的隐空间指南

通过用概念向量探测和激活推断期间的激活来引导隐藏表示，该论文将概念引导的研究拓展到诸如适应性、幽默、创造力和质量等更丰富的概念，探索现有检测和引导策略在这些挑战性环境中的工作程度，同时开发了一种新的以概念引导为度量的指标来评估，研究显示，一些概念如真实性相对容易通过现有技术进行引导，而适应性或幽默等新概念则更难探测和引导，并需要进一步调整。

Feb, 2024

使用命题探测在语言模型中监测潜在世界状态

语言模型在其输入语境中容易受到偏见、阿谀奉承、后门等倾向的影响，解释语言模型的内部状态可以帮助监控和纠正不忠实的行为。本研究假设语言模型在一个潜在的世界模型中表示其输入语境，并通过 “命题探测器” 提取这个潜在的世界状态。

Jun, 2024

认知失调：为何语言模型输出与内部真实性表征不一致？

神经语言模型可用于评估事实陈述的真实性，工作发现查询与探测过程有时存在不一致性，故探测更为准确，且存在三种不一致类别：编造、欺骗和异质性。

Nov, 2023

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

语言模型中学习事实的关键因素是什么？多元化多提示数据的多方面知识探测

大型语言模型 (LLMs) 面临处理事实知识的问题，本研究通过知识探测框架 BELIEF (-ICL)，从多个角度评估编码器型和解码器型大型语言模型对事实知识的理解能力，并利用多样的提示数据集 MyriadLAMA 进行可靠的评估，揭示了大型语言模型在学习事实方面的关键因素和基于提示的知识探测的局限性。

Jun, 2024

语言模型在方向推断方面表现不佳

探讨了利用提示进行监督微调测试 LM 在方向谓词蕴含方面的能力。提出了一个名为 BoOQA 的评估基准，旨在评估 LM 在方向谓词蕴含方面的表现，结果显示现有的 LM 模型无法胜任方向蕴含的学习任务，而基于蕴含图的模型表现较好。

Oct, 2022

多语言模型中的语言身份反事实检测

利用一个名为 AlterRep 的方法，运用因果分析技术对多语言模型的内部结构进行研究，发现大规模多语言模型中存在着既有语言特定的组件又有语言通用组件，并展示了反事实推理方法在多语言模型上的应用前景。

Oct, 2023

语言模型中的概念表示分析：借助逆向词典探针

基于逆向字典任务，探索和提升大型语言模型的推理能力，并预测其在一般推理性能上的表现。

Feb, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024