目标一致性:价值对齐问题的人类意识解释
通过应用争论模型分析不同领域的案例研究,本研究旨在解决 AI 对齐问题中复杂的利益冲突,为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。
Jun, 2024
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人的概念和价值观来最小化这类故障模式。此外,本研究通过人类参与者的实验结果表明,人类在意图行为时会考虑代理使用的概念,符合我们的联合推理模型。
Oct, 2023
本文主要讨论随着人工智能的广泛应用,如何确保人工智能系统追求我们想要其追求的目标,区分直接对齐问题和社会对齐问题,并分析了不同解决方案。其中,直接对齐问题解决方法主要集中在更强大的实现;而社会对齐问题通常由于个人和群体层面目标之间的冲突而产生,因此需要强调人工智能治理以解决冲突,并同时执行现有规范并设计适用于人工智能系统的新规范。
May, 2022
研究如何在理性和启发式验证测试的情况下,通过最少的查询,构建一种验证价值对齐的‘驾驶员测试’,在广泛的网格环境和一个连续自主驾驶领域中提出和分析启发式和近似价值对齐的验证测试,并证明了存在足够的条件,以通过常数查询复杂性对一组测试环境进行精确定性和近似对齐测试。
Dec, 2020
智能系统与人的目标保持一致是价值对齐问题,我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案,该方案是价值对齐的首个基于经验证的认知模型的形式分析。
Jul, 2017
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
当前的大型语言模型仍然容易受到对抗攻击,使其表现出不安全的行为,这一基本问题不仅对当前的人工智能系统尚未解决,而且在不严重削弱其能力的情况下可能难以解决,同时也对未来和更具能力的人工智能系统的安全性提出了担忧。
Nov, 2023
本文讨论了如何通过语言交流来解决人工智能中的价值对齐问题,探讨了这一主张对确保人工智能系统的价值对齐研究计划以及设计强有力的受益人工智能代理人的伦理影响。
Jul, 2022
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024
AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.
Oct, 2023