语言模型仍缺乏测谎器：探究经验和概念障碍

Jun, 2023

语言模型仍缺乏测谎器：探究经验和概念障碍

Still No Lie Detector for Language Models: Probing Empirical and Conceptual Roadblocks

B.A. Levinstein, Daniel A. Herrmann

TL;DR我们考虑大型语言模型是否具有信念，以及如果它们确实具有信念，我们如何衡量它们。在评估两种现有方法失败后，我们认为即使 LLMs 具有信念，在概念上这些方法也不太可能成功。因此，还没有 LLMs 的测谎仪。我们总结了研究结果，并提出了一些未来工作的具体路径。

Abstract

We consider the questions of whether or not large language models (LLMs) have beliefs, and, if they do, how we might measure them. First, we evaluate two existing approaches, one due to Azaria and Mitchell (2023)

large language models beliefs measurement generalization empirical results

发现论文，激发创造

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

了解 LLMs 不知道的内容：一种简单有效的自我检测方法

提出了一种新颖的自我检测方法，通过扩展问题的文本表达并收集相应的答案，检测大型语言模型（LLMs）是否会产生虚假回答，证明了该方法在 LLM 效果上的有效性。

Oct, 2023

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

LLM 中信念表示的标准

大语言模型 (Large Language Models) 内部如何表达其对世界的信念是一个缺乏统一理论基础的研究领域，本文通过提出适当性条件，填补了这一空白。研究人员通过结合哲学和机器学习方法，建立了准确度、连贯性、一致性和应用等四个标准，以促进对大语言模型中信念表达的全面理解。

May, 2024

当前估计器的可靠性和稳健性：对 LLMs 的事实置信度

大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Jun, 2024

探索令牌偏差：大型语言模型尚未成为真正的推理者

该研究介绍了一个假设检验框架，用于评估大型语言模型（LLMs）是否具有真正的推理能力，还是主要依赖于令牌偏差。我们超越准确性的评估，旨在调查 LLMs 在解决逻辑推理任务时的令牌偏差。具体而言，我们开发了精心控制的合成数据集，其中包括合取谬误和演绎问题。我们的框架概述了一系列假设，其中令牌偏差很容易被识别，所有零假设均假设 LLMs 具有真正的推理能力。本研究的发现以统计保证表明，多数 LLMs 在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色，但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式，因此引发了对其实际推理和泛化能力的担忧。

Jun, 2024

语言模型能否识别有说服力的论点？

大型语言模型（LLMs）的能力不断增长，但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力，我们在 Durmus＆Cardie（2018）的数据集上进行了研究，提出了衡量 LLMs 能力的任务，包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平，并且合并不同 LLMs 的预测可以显著提高性能，甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。

Mar, 2024

公平信念评估 —— 评估语言模型中的有害信念

通过 FairBelief 分析方法，我们揭示了英语语言模型普遍具有关于特定性别的伤害性信念，不同的训练过程、数据集、模型规模和架构会引发各种程度的伤害性信念。

Feb, 2024

如何捕捉一个 AI 撒谎者：通过提出无关问题来检测黑盒 LLMs 中的谎言

通过提出一个简单的黑盒检测器，在事实问题下，只需通过预定义的一系列无关联的后续问题以及将大型语言模型的否定 / 肯定回答输入到逻辑回归分类器中，我们发现大型语言模型存在特定的与说谎相关的行为模式，这表明它们可以用于实现通用目的的说谎检测。

Sep, 2023

语言模型是否有信念？检测、更新和可视化模型信念的方法

探讨语言模型是否对世界有信念，介绍检测语言模型是否拥有信念、强化信念更新的方法，其中重点介绍基于学习优化器或超网络的方法，并提出了评估信念更新方法效果的新度量，提出了一种称为 SLAG 的训练目标，并引入了信念图，提供了一种新形式的接口呈现模型信念的内部依赖关系。实验表明，模型具有有限的信念属性，但更新方法可以修正不正确的模型信念，并大大提高其一致性。学习优化器能在比过去工作更困难的环境中胜过现成的优化器。

Nov, 2021