超越人工智能对齐中的偏好
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍AI内容审核这个案例,展示了该框架的应用。
Jan, 2023
人类价值观和价值多元论对于人类决策至关重要。为了更好地反映价值多元论,我们介绍了ValuePrism数据集和Kaleido模型,它们可以生成、解释和评估特定语境下人类价值观、权利和责任的相关性和支持程度。我们的工作希望明确人类决策背后的隐含价值观,并引导AI系统做出更符合这些价值观的决策。
Sep, 2023
RLHF使用于LLMs中,本文探讨了RLHF的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的AI代理的需求。
Oct, 2023
解决人工智能对齐问题需要明确且可靠的价值取向;本文提出了从道德哲学中提取的五个核心、基础价值观,即生存、可持续的代际存在、社会、教育和真理,并表明这些价值观不仅为技术对齐工作提供了更清晰的方向,还作为一个框架来突出人工智能系统对获取和维持这些价值观的威胁和机遇。
Nov, 2023
本文介绍了一种新的形式化方法来量化人工智能系统与人类价值观的一致性,使用马尔可夫决策过程作为基础模型,强调价值观作为行动的可取目标和规范行为准则与AI决策之间的联系,为评估规范与价值观之间一致程度提供了一种机制,以在规范世界中评估状态转换中的偏好变化。利用这种形式化方法,AI开发者和伦理学家可以更好地设计和评估AI系统,以确保其与人类价值观和谐共处,该方法还适用于许多应用领域,例如强调幸福的推荐系统和强调安全的自动驾驶车辆。
Dec, 2023
现有的AI对齐方法假设偏好是静态的,这是不现实的:我们的偏好会改变,甚至可能受到与AI系统的交互的影响。为了阐明错误地假设偏好是静态的后果,我们引入了动态回报马尔可夫决策过程(DR-MDPs),明确地模拟偏好变化和AI对其的影响。我们发现,尽管静态偏好的假设具有方便性,但它可能破坏现有对齐技术的准确性,使其暗地里奖励AI系统以影响用户偏好,而用户可能并不真正想要这样。然后,我们探讨了潜在的解决方案。首先,我们提供了一个统一的视角,阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的AI影响。然后,我们从一开始就形式化了不同的AI对齐概念,考虑了偏好的变化。比较了8种这样的对齐概念的优缺点,发现它们要么倾向于引起不良的AI影响,要么过于风险回避,这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好,这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性,并成为针对人类偏好的变化性和可影响性明确考虑和应对的AI对齐实践的第一步。
May, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本研究论文旨在探讨道德和人类价值观在人工智能研究中的重要性,并提出了一个名为Dynamic Normativity的框架来解决通过学习范式对人工智能系统进行对齐的问题。
Jun, 2024
本研究解决了人工智能系统与人类及社会多样化价值观对齐的问题。提出的价值指南针框架基于心理学理论,对人类与语言模型的价值对齐进行了测量,发现存在潜在的风险性不对齐,强调了基于具体情境的对齐策略的重要性。这一研究为设计符合社会价值与伦理的人工智能提供了基础。
Sep, 2024