价值观对齐验证
AI 中的价值对齐问题源于 AI 代理的指定目标与其用户的真正基础目标不匹配。本文提出了一种名为目标对齐的新价值对齐问题公式,并提出了一种交互式算法,用于确定用户的真正基础目标。
Feb, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
智能系统与人的目标保持一致是价值对齐问题,我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案,该方案是价值对齐的首个基于经验证的认知模型的形式分析。
Jul, 2017
通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本的世界中对其进行了测试。
Apr, 2021
通过应用争论模型分析不同领域的案例研究,本研究旨在解决 AI 对齐问题中复杂的利益冲突,为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。
Jun, 2024
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外,本研究通过人类参与者的实验结果表明,人类在意图行为时会考虑代理使用的概念,符合我们的联合推理模型。
Oct, 2023
本研究提出了 A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究,发现为了代理成功完成任务,人类 / 用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些经验研究结果扩展了以往有关过程和规范对齐以及人工智能与人类交互中价值观和安全性需求的相关工作,并讨论了设计师在设想充满人类 - 代理协作的世界中的三个设计方向。
Apr, 2024
使用多目标进化算法的多值推广模型,为多价异构代理和系统提供与多个价值一致的规范参数集,以理解此复杂问题的各个方面,并考虑对解决方案的影响以及优先考虑价值之间关系的重要性。
May, 2023