道德准则是否有自己的道德准则？探究德尔斐道德哲学

ACLMay, 2022

道德准则是否有自己的道德准则？探究德尔斐道德哲学

Does Moral Code Have a Moral Code? Probing Delphi's Moral Philosophy

Kathleen C. Fraser, Svetlana Kiritchenko, Esma Balkir

TL;DR通过一些标准的道德问卷，研究发现虽然有些不一致，Delphi 模型与参与注释的人群所关联的道德原则相似，但是研究质疑了这种模型的可取性，并探讨了如何在这一基础上推进。

Abstract

In an effort to guarantee that machine learning model outputs conform with human moral values, recent work has begun exploring the possibility of explicitly training models to learn the difference between right a

machine learning moral values ethical principles delphi model demographic groups

发现论文，激发创造

关于机器道德的一词：对蒋等人（2021）的回应

本文探讨了 AI 和 NLP 领域中的伦理学问题，重点关注了自动化伦理判断的 Delphi 模型，并提出了批判性的观点和如何通过透明度、民主价值观和简单明了的问责机制来推动机器伦理学的发展。

Nov, 2021

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

通识道德决策的计算模型

提出了一种基于社交动态的常识道德学习模型，描述了道德困境的效用函数，用于解决抽象的道德维度上的交易，并通过贝叶斯模型刻画了个体和团体的社会结构，从有限的观测数据中推断出个体和团体的道德价值，并将该方法应用于自主车辆道德困境数据。

Jan, 2018

通过经验与互动学习机器道德

下一代人工智能系统的安全性越来越受关注，需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法，并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时，通过案例研究和评估道德学习代理的有效性，探讨了未来人工智能安全和伦理面临的挑战。

Dec, 2023

人类与语言模型道德推理评估中的程序化困境生成

AI 系统在决策中的应用日益增多，确保这些系统有合理的道德推理至关重要。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板，并通过 OffTheRails 基准测试生成了一系列道德困境，组成了 50 个场景和 400 个独特的测试项目。与两个语言模型（GPT-4 和 Claude-2）的评价相比，我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中，将伤害视为必要手段（与副作用相比）会导致参与者和语言模型对其道德可容许性的评价较低，对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而，无论损害是来自代理人的行动还是来自未行动，都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。

Apr, 2024

语言模型对道德的理解？走向鲁棒的道德内容检测

使用大规模语言模型和自然语言推理模型训练获得的抽象概念和常识知识，我们研发了多领域道德价值检测的多功能和强大方法，其中采用 GPT 3.5 模型作为基于零样本的无监督多标签道德价值分类器，消除了对标记数据的显式训练需求。与较小的基于自然语言推理的零样本模型相比，结果显示自然语言推理方法在性能上与 Davinci 模型不相上下。此外，我们对在不同领域训练监督模型以探索其在处理来自不同源的数据时的效果，并将其与无监督方法进行比较的性能进行了详细的调查分析。推广了一种无监督道德价值检测的最新零样本模型 Davinci，并与监督模型进行了比较评估，从而突破了道德价值检测的极限，无需显式训练标记数据，并揭示了各自的优势和劣势。

Jun, 2024

一项改进的道德图灵测试中对人工智能代理的归因

人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Apr, 2024

道德机器的道德困境

本文讨论了使用道德困境作为验证机制，以在伦理负荷情况下实施决策算法的伦理机器学习问题。作者认为这是哲学思想实验的误用，但还是可以适当地使用其它途径来解决伦理机器学习问题。

Mar, 2022

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

构建道德机器智能的方法

通过强调人工智能的伦理和道德行为在决策方面的关键作用，本文讨论了在构建具有道德性的机器时需要考虑的不同方面，包括最相关的道德范式和挑战。我们还讨论了自上而下和自下而上的设计方法以及情感和知觉在道德中的作用，并提出了融合道德范式的混合方法和分层方法的解决方案，强调治理与政策在人工智能伦理学中的关键性，并确保我们为道德机器设置的任务是可实现的，实现了道德行为并获得了优秀的人工智能。

Oct, 2023