自然发生故事原则预测的机器学习方法
该研究介绍了一个基于明确人类价值观的价值对齐分类框架,并从大规模语言模型中提炼价值对齐知识以构建分类器,结果表明使用显式人类价值观分类器能提高人工智能的包容性和可解释性。
Oct, 2022
本文介绍了 ETHICS 数据集,旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度,研究发现当前语言模型有望但能力不完整地预测基本人类道德判断,并提供了实现人工智能与人类价值对齐的一步。
Aug, 2020
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
探究自然语言生成模型作为行为先验条件用于社交环境中行为的假设生成,结合 Moral Stories 数据集研究并提出解码策略,通过综合专家模型实现优质行为生成、后果和规范生成。
Dec, 2020
通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本的世界中对其进行了测试。
Apr, 2021
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外,本研究通过人类参与者的实验结果表明,人类在意图行为时会考虑代理使用的概念,符合我们的联合推理模型。
Oct, 2023