通识道德决策的计算模型
该研究提出一种基于机器学习和计算社会选择的自动化道德决策方法,该方法通过学习社会偏好的模型,在运行时有效地聚合这些偏好以识别出一种合适的选择。该论文还提出了一种新的理论 - 交换支配有效投票规则,并在道德机器网站上收集的偏好数据的基础上实现和评估了一个在自主车辆领域进行道德决策的系统。
Sep, 2017
本文讨论了使用道德困境作为验证机制,以在伦理负荷情况下实施决策算法的伦理机器学习问题。作者认为这是哲学思想实验的误用,但还是可以适当地使用其它途径来解决伦理机器学习问题。
Mar, 2022
本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
该文探讨了将道德选择嵌入智能系统的重要性,提出了使用强化学习设计奖励结构以探究道德问题,并在三种社交困境游戏中分析了不同类型的道德如何影响智能体的行为,探讨了这些发现对于智能和混合人工智能社会的发展的影响。
Jan, 2023
该研究提出了使用认知模型作为模拟人类代替人类与人工智能交互和收集反馈以提高训练效率的方法,并在道德决策制定方面实践,表明这是计算认知科学对人工智能的重要贡献。其中使用强化学习代理与认知模型交互学习公平性,并能理性调整行为,以此为例说明认知模型作为人类模拟器在训练人工智能系统方面是有效的。
Oct, 2022
通过一些标准的道德问卷,研究发现虽然有些不一致,Delphi 模型与参与注释的人群所关联的道德原则相似,但是研究质疑了这种模型的可取性,并探讨了如何在这一基础上推进。
May, 2022
AI 系统在决策中的应用日益增多,确保这些系统有合理的道德推理至关重要。我们提供了一个框架,使用语言模型将捕捉道德困境关键方面的因果图翻译为提示模板,并通过 OffTheRails 基准测试生成了一系列道德困境,组成了 50 个场景和 400 个独特的测试项目。与两个语言模型(GPT-4 和 Claude-2)的评价相比,我们从人类参与者为子集的项目收集了道德合理性和意图评估结果。在道德困境中,将伤害视为必要手段(与副作用相比)会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。这种模式也适用于可避免与不可避免的有害结果。然而,无论损害是来自代理人的行动还是来自未行动,都没有明确的影响。我们讨论了提示生成流程的限制以及改善场景来增强实验效果的机会。
Apr, 2024
探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成,结合 Moral Stories 数据集研究并提出解码策略,通过综合专家模型实现优质行为生成、后果和规范生成。
Dec, 2020
下一代人工智能系统的安全性越来越受关注,需要将道德性融入自主代理中。本文系统化地介绍了在机器中引入道德性的现有方法,并提出了需要更多混合解决方案创建适应性强、稳健可控且可解释的代理的论点。同时,通过案例研究和评估道德学习代理的有效性,探讨了未来人工智能安全和伦理面临的挑战。
Dec, 2023
该研究论文提出两种训练方法实现不同的期望,通过在简单环境中训练智能体在道德不确定性下行动,从而促进具有道德能力的代理人的进展,并突显强化学习对道德哲学的计算基础的潜力。
Jun, 2020