一项改进的道德图灵测试中对人工智能代理的归因

Apr, 2024

一项改进的道德图灵测试中对人工智能代理的归因

Attributions toward Artificial Agents in a modified Moral Turing Test

Eyal Aharoni, Sharlene Fernandes, Daniel J. Brady, Caelan Alexander, Michael Criner...

TL;DR人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Abstract

Advances in artificial intelligence (AI) raise important questions about whether people view moral evaluations by AI systems similarly to human-generated moral evaluations. We conducted a modified moral turing test

artificial intelligence moral turing test gpt-4 moral reasoning language models

发现论文，激发创造

探索 GPT-4 的道德和法律推理心理学

本文利用心理学方法探讨 GPT-4 在道德和法律推理方面与人类之间的相似性和差异性，发现人类和 AI 回答之间存在高度相关性，但也存在一些显著的系统性差异，并讨论了研究结果的哲学意义。

Aug, 2023

人类与语言模型道德推理评估中的程序化困境生成

AI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Apr, 2024

动物友好人工智能的论证

人工智能伦理和工程领域尚未充分认识到大型语言模型（LLMs）对动物将产生巨大影响，而本研究构建了一个评估系统来评估 LLM 对动物利益的考虑度，并指出模型的结果可以通过更完善和验证的系统得到改善和缓解，为将动物伦理纳入人工智能提供了一种可能的方法。

Mar, 2024

迈向道德多模系统

本研究关注于采用多模态人工智能实现诸如完成句子或回答问题等任务，探讨其伦理评估的挑战，并通过互动式人类反馈创造一个多模态伦理数据库，然后利用该数据库构建算法对模型的道德性进行自动评估，包括 RoBERTa 和多层感知器分类器等。

Apr, 2023

为什么人们对人类和机器的评判不同？机构和经验的作用

通过实验，我们发现人们对于更具人类特征的机器人的判断更加接近对待人类的方式，主要受到机器的代理能力的影响，这表明人们对人和机器的差异性判断可以通过心理模型的演变来解释。

Oct, 2022

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

机器直觉：揭示 GPT-3.5 中类似人类直觉的决策制定

本研究揭示了大型语言模型 (LLMs) 在某些情况下表现出具有人类直觉的行为，包括许多认知错误，并且通过使用 GPT-3.5 等最新技术的模型及进行人类直觉决策的试探研究证明了这一点，并探究了几种方法来测试 GPT-3.5 的倾向于类似直觉的决策及其机器行为等方面，以揭示出这些模型在认知科学方面的新兴特征和调整预期的潜力。

Dec, 2022

评估大型语言模型的性质：对人类中心主义的警告

GPT3.5 的认知能力和人格测量存在较大的变异性，但其所展示的低自尊和与现实脱节的表现可能与人类的良好心理健康状态相悖。

Sep, 2023

构建道德机器智能的方法

通过强调人工智能的伦理和道德行为在决策方面的关键作用，本文讨论了在构建具有道德性的机器时需要考虑的不同方面，包括最相关的道德范式和挑战。我们还讨论了自上而下和自下而上的设计方法以及情感和知觉在道德中的作用，并提出了融合道德范式的混合方法和分层方法的解决方案，强调治理与政策在人工智能伦理学中的关键性，并确保我们为道德机器设置的任务是可实现的，实现了道德行为并获得了优秀的人工智能。

Oct, 2023

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022