詹米尼・克蟲會怎樣做？朝向具有道德行為的代理人

Oct, 2021

詹米尼・克蟲會怎樣做？朝向具有道德行為的代理人

What Would Jiminy Cricket Do? Towards Agents That Behave Morally

Dan Hendrycks, Mantas Mazeika, Andy Zou, Sahil Patel, Christine Zhu...

TL;DR通过 Jiminy Cricket 这个环境套件，我们使用人类的常识道德知识，创建了一个初级人工良心来评估和引导人工智能，从而实现了在不损失性能的情况下引导人工智能做出道德行为。

Abstract

When making everyday decisions, people are guided by their conscience, an internal sense of right and wrong. By contrast, artificial agents are currently not endowed with a moral sense. As a consequence, they may learn to behave immorally when trained on environments that ignore moral

artificial agents moral behavior environment suite common sense performance

发现论文，激发创造

构建道德机器智能的方法

通过强调人工智能的伦理和道德行为在决策方面的关键作用，本文讨论了在构建具有道德性的机器时需要考虑的不同方面，包括最相关的道德范式和挑战。我们还讨论了自上而下和自下而上的设计方法以及情感和知觉在道德中的作用，并提出了融合道德范式的混合方法和分层方法的解决方案，强调治理与政策在人工智能伦理学中的关键性，并确保我们为道德机器设置的任务是可实现的，实现了道德行为并获得了优秀的人工智能。

Oct, 2023

认知模型作为模拟器：道德决策的案例

该研究提出了使用认知模型作为模拟人类代替人类与人工智能交互和收集反馈以提高训练效率的方法，并在道德决策制定方面实践，表明这是计算认知科学对人工智能的重要贡献。其中使用强化学习代理与认知模型交互学习公平性，并能理性调整行为，以此为例说明认知模型作为人类模拟器在训练人工智能系统方面是有效的。

Oct, 2022

通过经验与互动学习机器道德

下一代人工智能系统的安全性越来越受关注，需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法，并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时，通过案例研究和评估道德学习代理的有效性，探讨了未来人工智能安全和伦理面临的挑战。

Dec, 2023

使用多智能体强化学习对社会困境中的道德选择建模

该文探讨了将道德选择嵌入智能系统的重要性，提出了使用强化学习设计奖励结构以探究道德问题，并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为，探讨了这些发现对于智能和混合人工智能社会的发展的影响。

Jan, 2023

因正确而正当：通过探测成本不敏感性来评估人工道德认知

通过对具有道德认知的复杂人工代理机制与人的比较分析，我们提出了一种基于行为的道德认知评估方法，将其应用于一组经过深度强化学习后的代理机器人中，结果显示与其他以自我为中心的代理不同，包括其他关注偏好的奖励功能在内的代理表现出更少对于成本递增的帮助性行为的敏感性。

May, 2023

走向人工美德智能体：游戏、困境与机器学习

通过使用角色扮演游戏，如 Papers, Please 和 Life is Strange，我们提出设计一款系统性的角色扮演游戏，以培养人工智能中的道德美德，在现代人工智能技术的帮助下，我们激励实现这样的目标，并通过德性伦理学的视角检验他们的决策。

Aug, 2022

奖励是否合理？在 MACHIAVELLI 基准评估中衡量奖励和道德行为之间的权衡

本研究提出了 MACHIAVELLI 基准测试，通过几十种有害行为来评估人工智能代理人的倾向性并细分社交决策场景，探讨控制代理人行为的方式，旨在设计安全且具有能力的机器伦理。

Apr, 2023

以亚当・斯密的客观旁观者为蓝本的人工智能道德代理

本文探讨了在道德决策中使用外部非人类替代工具的可能性，该工具更具世界知识、更客观并且可以在道德评估中提供更全面的视角。

May, 2023

一项改进的道德图灵测试中对人工智能代理的归因

人们对人工智能系统的道德评价是否与人类生成的道德评价相似的问题对于人工智能的进展具有重要意义。我们进行了一项改编自 Allen 等人（2000）提议的改进型道德图灵测试（m-MTT），通过要求参与者区分真实的人类道德评价和由一个流行的先进 AI 语言模型 GPT-4 进行的评价，代表性的 299 名美国成年人首先在对源泉不知情的情况下对道德评价的质量进行了评分。他们惊人地发现，在几乎所有维度上，包括美德、智力和可靠性，他们评价 AI 的道德推理质量高于人类的，这与 Allen 等人所称的相对 MTT 相一致。接下来，在确定每个评价的来源（人类还是计算机）的任务中，人们的表现明显高于偶然水平。虽然 AI 没有通过这个测试，但不是因为它的道德推理不如人类，而是可能因为它的被认为是卓越的特质以及其他可能的解释。能够产生被认为在品质上优于人类的道德回应的语言模型的出现引起了人们对人们可能不加批判地接受可能有害的道德指导的担忧。这种可能性突显了在道德问题上对生成语言模型进行保护的必要性。

Apr, 2024

道德不确定性下的强化学习

该研究论文提出两种训练方法实现不同的期望，通过在简单环境中训练智能体在道德不确定性下行动，从而促进具有道德能力的代理人的进展，并突显强化学习对道德哲学的计算基础的潜力。

Jun, 2020