动态规范性:价值对齐的必要与充分条件
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与 AI 决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI 开发者和伦理学家可以更好地设计和评估 AI 系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
解决人工智能对齐问题需要明确且可靠的价值取向;本文提出了从道德哲学中提取的五个核心、基础价值观,即生存、可持续的代际存在、社会、教育和真理,并表明这些价值观不仅为技术对齐工作提供了更清晰的方向,还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。
Nov, 2023
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍 AI 内容审核这个案例,展示了该框架的应用。
Jan, 2023
本文探讨了大规模语言技术在人类与对话代理之间的应用,提出了几个步骤以确保人类价值观得到贯彻,并探索了如何通过对话规范来协调对话代理与人类之间的通信。
Sep, 2022
通过训练一种双重奖励信号的智能体,其中包括标准任务性能奖励和一个从价值对齐的先前模型派生的规范行为奖励,我们介绍了一种价值对齐的强化学习方法,并展示了如何使用策略塑形技术平衡这两种奖励信号,以便产生既有效又更规范的策略,在三个互动的基于文本的世界中对其进行了测试。
Apr, 2021
智能系统与人的目标保持一致是价值对齐问题,我们提出一种基于多智能体决策理论和人类认知数学模型相结合的协作逆强化学习解决方案,该方案是价值对齐的首个基于经验证的认知模型的形式分析。
Jul, 2017
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明 LLM 面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的 AI 系统的路径。
Mar, 2024
本文讨论了如何通过语言交流来解决人工智能中的价值对齐问题,探讨了这一主张对确保人工智能系统的价值对齐研究计划以及设计强有力的受益人工智能代理人的伦理影响。
Jul, 2022
通过社会科学根植的正式概念框架,系统、集成和跨学科地探究人类价值如何支持设计道德人工智能,从而解决价值对齐问题和其他相关的挑战,如人工智能学习人类价值观、将个人价值观聚合到群体中和设计计算机机制来处理价值观。
May, 2023