何时需要例外：探究语言模型作为人类道德判断的解释

Oct, 2022

何时需要例外：探究语言模型作为人类道德判断的解释

When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment

Zhijing Jin, Sydney Levine, Fernando Gonzalez, Ojasv Kamal, Maarten Sap...

TL;DR为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Abstract

ai systems are becoming increasingly intertwined with human life. In order to effectively collaborate with humans and ensure safety, ai systems need to be able to understand, interpret and predict →

ai systems human moral judgments rule-breaking question answering moralcot ai safety

发现论文，激发创造

通过经验与互动学习机器道德

下一代人工智能系统的安全性越来越受关注，需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法，并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时，通过案例研究和评估道德学习代理的有效性，探讨了未来人工智能安全和伦理面临的挑战。

Dec, 2023

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Oct, 2023

何时违背规则是可以接受的？基于实证数据的道德判断知识表示

研究人类道德思维中杰出的灵活性并将其应用于开发可以解释和产生类人道德判断的人工智能系统，以及将这些推理能力有效地嵌入机器中的方法，该方法利用基于偏好的结构来建模，并捕获了与标准双过程道德判断理论的新修正有关的话题，并详细介绍了研究结果。

Jan, 2022

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

人类与语言模型道德推理评估中的程序化困境生成

AI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Apr, 2024

一项改进的道德图灵测试中对人工智能代理的归因

人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Apr, 2024

大型语言模型内在的道德自我修正能力

通过三个实验，我们得出结论：通过人类反馈训练的强化学习语言模型具有道德自我纠正的能力，具备遵守伦理原则的潜力。

Feb, 2023

知情人工智能监管：通过伦理审核比较领先的 LLM 聊天机器人的伦理框架，评估道德推理和规范价值

通过进行基于伦理的审计，该研究评估了 8 个主要的商业和开源大型语言模型（包括 GPT-4）的可解释性和可信度，比较不同模型在道德推理和伦理框架上的规范价值，以探索人工智能与人类的伦理对齐问题。研究结果表明，GPT-4 表现出了一个复杂的伦理框架，但同时也显示出对特定文化规范存在明显偏见的规范框架和令人不安的威权主义倾向。

Jan, 2024