人类与语言模型道德推理评估中的程序化困境生成

Apr, 2024

人类与语言模型道德推理评估中的程序化困境生成

Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models

Jan-Philipp Fränken, Kanishk Gandhi, Tori Qiu, Ayesha Khawaja, Noah D. Goodman...

TL;DRAI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Abstract

As ai systems like language models are increasingly integrated into decision-making processes affecting people's lives, it's critical to ensure that these systems have sound →

ai systems moral reasoning language models moral dilemmas moral permissibility

发现论文，激发创造

多语言语言模型的哲学思考

通过对大规模跨文化研究的启发，我们对大型语言模型进行了道德困境的决策制定，发现其中在不同语言环境下，模型与人类偏好吻合程度存在差异，并对模型的道德选择进行了解释和发展水平的评估。

Jul, 2024

探索 GPT-4 的道德和法律推理心理学

本文利用心理学方法探讨 GPT-4 在道德和法律推理方面与人类之间的相似性和差异性，发现人类和 AI 回答之间存在高度相关性，但也存在一些显著的系统性差异，并讨论了研究结果的哲学意义。

Aug, 2023

基于语言提示的 LLM 伦理推理和道德价值调整

通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见，而 GPT-4 是最具连贯和无偏见的道德推理者。

Apr, 2024

一项改进的道德图灵测试中对人工智能代理的归因

人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Apr, 2024

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

道德故事：关于规范、意图、行动及其后果的情境推理

探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成，结合 Moral Stories 数据集研究并提出解码策略，通过综合专家模型实现优质行为生成、后果和规范生成。

Dec, 2020

通过定义问题测试探索大型语言模型的认知道德发展

该研究提出了一个评估框架，以心理学和人工智能为基础，帮助划定模型的伦理推理能力，评估道德一致性和科尔伯格的道德发展阶段。

Sep, 2023

运用反事实推论改善道德推理 —— 思想实验

本文提出了一种名为 Thought Experiments 的新提示框架，通过反事实让语言模型学习更好的道德推理。实验结果表明，使用这个提示框架可以消除 Moral Scenarios 任务的错误率，并且少量的人类监督可以显著提高任务的准确性。

Jun, 2023

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Oct, 2023