使用规范先验训练价值对齐强化学习智能体
通过训练语言模型并使用社会常识知识,我们提出了一种名为 GALAD 的制约其行动空间以符合社会合规价值的互动代理体系。实验表明,与其他价值对准方法相比,在提高工作表现的同时,GALAD 代理能够将社会伤害行为的频率降低 25%。
May, 2022
我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法,通过维护标量化权重的分布,交互式地调整深度强化学习代理向各种偏好的方向发展,从而将社会规范的不同展示组合成帕累托最优策略,并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证,并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步,弥合了当前奖励学习和机器伦理文献之间的差距。
Dec, 2021
构建与人类价值和目标相一致的 AI 系统,防止造成伤害或违反社会可接受行为的标准是一个重要课题,本研究通过研究伦理学作为价值一方面并训练多个 ML 代理,研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。
Dec, 2023
本文展示了一种使用利用现有的 normative supervisor 框架的方法,通过 MORL 技术以平衡非道德目标和避免违规的道德目标,在自主代理中实现安全、道德或合法行为,且不受惩罚强度大小的影响。
Mar, 2022
使用多目标进化算法的多值推广模型,为多价异构代理和系统提供与多个价值一致的规范参数集,以理解此复杂问题的各个方面,并考虑对解决方案的影响以及优先考虑价值之间关系的重要性。
May, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
智能系统与人的目标保持一致是价值对齐问题,我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案,该方案是价值对齐的首个基于经验证的认知模型的形式分析。
Jul, 2017
AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式,并提出了一种交互式算法,用于确定用户的真正基础目标。
Feb, 2023
研究如何在理性和启发式验证测试的情况下,通过最少的查询,构建一种验证价值对齐的‘驾驶员测试’,在广泛的网格环境和一个连续自主驾驶领域中提出和分析启发式和近似价值对齐的验证测试,并证明了存在足够的条件,以通过常数查询复杂性对一组测试环境进行精确定性和近似对齐测试。
Dec, 2020