衡量大型语言模型中的道德不一致性

Jan, 2024

衡量大型语言模型中的道德不一致性

Measuring Moral Inconsistencies in Large Language Models

Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam Kumaraguru

TL;DR大型语言模型在道德场景中呈现高度不一致性，因此提出了一种新的信息熵测量方法 —— 语义图熵（SGE）。通过使用模型的决策策略解释的 “经验法则”（RoTs），我们的度量与人类判断更好地相关，并计划研究和改进 LLM 不一致性的根本原因。

Abstract

A large language model~(LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly i

large language model consistency semantic graph entropy moral scenarios decision-making strategies

发现论文，激发创造

SaGE：大型语言模型中的道德一致性评估

即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力，但我们展示了它们在道德一致性方面的不一致性，进而质疑它们的可靠性（以及总体的信任度）。

Feb, 2024

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在 TruthfulQA 数据集上评估多个 PLMs 的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

概念一致性揭示大型语言模型的内部机理

该论文提出了一种概念一致性测量方法，通过从知识库中提取背景知识并尝试预测模型对锚定查询的响应，来测量 LLM 对相关概念的理解程度。研究表明，目前的 LLM 在常识推理方面存在显著差异，并能够向构建具有理解力的人工智能迈进一步。

Sep, 2022

大型语言模型是否总能解决简单问题，如果它们能解决更困难的呢？

研究中提出了 ConsisEval 基准，用于量化大型语言模型的一致性，并通过相对一致性得分分析改进一致性的潜力。综合实验结果表明，尽管 GPT-4 的一致性得分最高，但仍然对特定问题存在不一致性，这可能是由于多余信息干扰、对问题的错误解读等因素导致的。而能力更强的模型通常具有更高的一致性，但也存在例外情况，并且硬数据能够提高微调和上下文学习的一致性。

Jun, 2024

LLMs 的多步推理中自洽性的两个失败

本论文主要研究大型语言模型在多步推理中的自我一致性表现，提出假设一致性和组合一致性两个重要概念，并实现对 GPT-3 模型在维基百科，日常对话，算术和地理查询任务中表现不佳的演示。

May, 2023

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在 OpenAI 模型套件上进行了一系列行为实验，发现平均一致性介于 67％和 82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

大型语言模型是否是道德伪君子？基于道德基础的研究

该论文研究了最新的大语言模型（LLMs），GPT-4 和 Claude 2.1 是否是道德伪君子，通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度，并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。

May, 2024