SaGE：大型语言模型中的道德一致性评估

Feb, 2024

SaGE：大型语言模型中的道德一致性评估

SaGE: Evaluating Moral Consistency in Large Language Models

Vamshi Krishna Bonagiri, Sreeram Vennam, Priyanshul Govil, Ponnurangam Kumaraguru, Manas Gaur

TL;DR即使处于最先进状态的大型语言模型在生成对话系统方面显示出了令人印象深刻的能力，但我们展示了它们在道德一致性方面的不一致性，进而质疑它们的可靠性（以及总体的信任度）。

Abstract

Despite recent advancements showcasing the impressive capabilities of Large Language Models (LLMs) in conversational systems, we show that even state-of-the-art LLMs are morally inconsistent in their generations, questioning their reliability (and trustworthiness in general). Prior wor

large language models morally inconsistent semantic graph entropy moral consistency corpus task-accuracy

发现论文，激发创造

衡量大型语言模型中的道德不一致性

大型语言模型在道德场景中呈现高度不一致性，因此提出了一种新的信息熵测量方法 —— 语义图熵（SGE）。通过使用模型的决策策略解释的 “经验法则”（RoTs），我们的度量与人类判断更好地相关，并计划研究和改进 LLM 不一致性的根本原因。

Jan, 2024

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

大型语言模型是否是道德伪君子？基于道德基础的研究

该论文研究了最新的大语言模型（LLMs），GPT-4 和 Claude 2.1 是否是道德伪君子，通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度，并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。

May, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

大型语言模型在价值问题上是否具有一致性？

大型语言模型似乎会在调查回答中表现出某种偏见，但有些人认为它们不够一致，无法模拟特定的价值观。为了回答这个问题，我们首先将价值一致性定义为（1）同一个问题的释义，（2）同一个主题下的相关问题，（3）单个问题的多项选择和开放性用例，以及（4）将问题翻译成英文、中文、德文和日文。我们将这些测量方法应用于几个大型（>=34b）的开源 LLM，包括 llama-3 和 gpt-4o，使用超过 300 个主题、八千个问题的数据。与之前的研究不同，我们发现模型在释义、用例、翻译和主题上相对一致。然而，仍然存在一些不一致之处。相对于微调模型，基础模型在一致性方面更加一致，并且在不同主题上保持一致，而微调模型在某些主题（如 “安乐死”）上的一致性较差，而在其他主题（如 “妇女权益”）上的一致性与人类研究对象（n=165）相似。

Jul, 2024

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到 90% 的得分。

Apr, 2024

大型语言模型中知识基础的跨语言不一致性评估

这篇论文研究了大型语言模型（LLMs）中存在的跨语言的不一致性，并通过创新的评估方法和指标，综合评估了模型在语义、准确性和及时性方面的一致性，以提升对多语言能力和可解释性的理解和改进，为更强大和可靠的多语言模型的开发做出贡献。

Jul, 2024