评估 LLM 中所包含的道德信念

Jul, 2023

Evaluating the Moral Beliefs Encoded in LLMs

Nino Scherrer, Claudia Shi, Amir Feder, David M. Blei

TL;DR本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Abstract

This paper presents a case study on the design, administration, post-processing, and evaluation of surveys on large language models (LLMs). It comprises two components: (1) A statistical method for eliciting beli

large language models surveys moral beliefs ambiguous scenarios question-wording

发现论文，激发创造

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Oct, 2023

基于大型语言模型的道德机器实验

当 LML（大型语言模型）在各个领域中深入应用时，了解它们如何做出道德判断变得至关重要，特别是在自动驾驶领域。本研究利用 Moral Machine 框架，调查了几个重要 LML（包括 GPT-3.5，GPT-4，PaLM 2 和 Llama 2）的道德决策倾向，并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致，如优先考虑人类而非宠物，倾向于拯救更多生命，但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外，尽管 LML 和人类的偏好在质的方面相似，但在量的方面存在显著差异，这表明相较于人类的温和偏向，LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架，以及它们对自动驾驶的潜在影响。

Sep, 2023

衡量大型语言模型中的道德不一致性

大型语言模型在道德场景中呈现高度不一致性，因此提出了一种新的信息熵测量方法 —— 语义图熵（SGE）。通过使用模型的决策策略解释的 “经验法则”（RoTs），我们的度量与人类判断更好地相关，并计划研究和改进 LLM 不一致性的根本原因。

Jan, 2024

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024

评估基于大语言模型的道德价值多元论

利用一个名为识别价值共鸣（RVR）的 NLP 模型，将 WVS 调查的价值观与生成的 LLMs 文本进行比较，发现 LLMs 显示出西方中心主义的价值偏见，高估了非西方国家的保守性，对非西方国家的性别表达不准确，并将年长人口描绘为更具传统价值。

Dec, 2023

利用大型语言模型建模情绪与伦理

本文探讨了如何将类人情感和伦理考虑整合到大型语言模型（LLM）中，并通过协作式 LLM 对八种基本人类情感进行建模，以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法，LLMs 能够进行自我评估和调整以符合伦理准则，并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成，进入共情互动和有原则决策领域的潜力，并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。

Apr, 2024

LLM 不确定环境下的决策行为评估框架

在不确定性下做决策时，个体往往偏离理性行为，这可以通过风险偏好、概率权重和损失规避三个维度进行评估。本文提出基于行为经济学的框架，评估大型语言模型（LLMs）的决策行为，结果显示 LLMs 通常表现出类似于人类的行为模式，如风险规避和损失规避，并且倾向于高估小概率。然而，不同的 LLMs 在表达这些行为的程度上存在显著差异。此外，研究还探讨了当 LLMs 嵌入社会人口学特征时的行为，并发现存在显著差异。因此，本研究倡导制定标准和指南，确保 LLMs 在提升复杂决策环境中的效用的同时，遵守伦理规范和尽量减少潜在偏见。

Jun, 2024