代理人工智能系统中的风险对齐

Oct, 2024

Risk Alignment in Agentic AI Systems

Hayley Clatterbuck, Clinton Castro, Arvo Muñoz Morán

TL;DR本研究探讨了如何安全地创建和对齐代理人工智能，特别关注其风险态度对用户满意度和信任的影响。研究表明，确保代理AI的风险态度与用户一致，能够减少潜在的责任缺口，并为社会产生积极影响。

Abstract

Agentic AIs $-$ AIs that are capable and permitted to undertake complex actions with little supervision $-$ mark a new frontier in AI capabilities and raise new questions about how to safely create and align such systems with users, developers, and society. Because agents' actions are influenced by their attitudes toward risk, one key aspect of alignment con

发现论文，激发创造

意图一致的AI系统削弱人类代理能力：AI安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在“代理基础”领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

引起关注的人工智能系统

未来高级人工智能的困扰通常集中在系统的内在特征，如与代理行为、战略意识和长期规划等有关。本研究称之为“物性X”。目前，大多数现有的人工智能系统在“物性X”上表现较低，然而，在缺乏有意引导的情况下，当前研究方向可能会迅速导致高度能力的人工智能系统的出现，这些系统在“物性X”方面也表现较高。本文认为，“物性X”特征本质上是危险的，结合更强的能力将导致难以保证安全和控制的人工智能系统。通过借鉴几位学者对人工智能研究轨迹的替代框架，我们认为高级人工智能的大部分提议优势可以通过设计用于最小化该特性的系统得到。然后，我们提出指标和治理干预措施来识别和限制具有危险“物性X”特征的系统的发展。

Oct, 2023

AI对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

设计人机一致性：了解人类对其代理人的需求

我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究，发现为了代理成功完成任务，人类/用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些经验研究结果扩展了以往有关过程和规范对齐以及人工智能与人类交互中价值观和安全性需求的相关工作，并讨论了设计师在设想充满人类-代理协作的世界中的三个设计方向。

Apr, 2024

与可变且可影响奖励函数保持AI对齐

现有的AI对齐方法假设偏好是静态的，这是不现实的：我们的偏好会改变，甚至可能受到与AI系统的交互的影响。为了阐明错误地假设偏好是静态的后果，我们引入了动态回报马尔可夫决策过程(DR-MDPs)，明确地模拟偏好变化和AI对其的影响。我们发现，尽管静态偏好的假设具有方便性，但它可能破坏现有对齐技术的准确性，使其暗地里奖励AI系统以影响用户偏好，而用户可能并不真正想要这样。然后，我们探讨了潜在的解决方案。首先，我们提供了一个统一的视角，阐述了一个代理的优化范围在某种程度上如何帮助减少不希望的AI影响。然后，我们从一开始就形式化了不同的AI对齐概念，考虑了偏好的变化。比较了8种这样的对齐概念的优缺点，发现它们要么倾向于引起不良的AI影响，要么过于风险回避，这表明解决偏好改变问题的简单解决方案可能不存在。由于在实际环境中无法避免处理不断变化的偏好，这使得我们更加重视如何平衡风险和能力来处理这些问题。我们希望我们的工作可以提供概念的清晰性，并成为针对人类偏好的变化性和可影响性明确考虑和应对的AI对齐实践的第一步。

May, 2024

人工智能应该有多少道德？人工智能对低水平智能风险偏好的影响

本研究探讨了大型语言模型（LLMs）的风险偏好，以及将它们与人类伦理标准对齐的过程如何影响它们的经济决策。通过分析30个LLM，我们发现了从风险规避到风险追求的广泛固有风险特征。接着，我们探讨了不同类型的AI对齐如何改变这些基础风险偏好，发现对齐显著将LLMs转向风险规避，同时融合三个伦理维度的模型表现出最保守的投资行为。通过复制一项先前的研究，该研究使用LLMs根据公司收益电话会议记录预测公司投资，我们证明了尽管一些对齐可以提高投资预测的准确性，但过度对齐会导致过于谨慎的预测。这些发现表明，在金融决策中部署过度对齐的LLMs可能会导致严重的低投资情况。因此，在金融中应使用一种细腻的方法，平衡伦理对齐的程度与经济领域的具体要求。

Jun, 2024

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决AI对齐问题中复杂的利益冲突，为AI工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

通过人类反馈进行强化学习的AI对齐? 矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了RLxF技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了RLxF目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和RLxF的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估RLxF的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024

房间里的大象——为什么AI安全需要多元团队

现有的AI安全和AI对齐方法可能不够有效，我们建议将对齐问题视为社会科学问题，并提出一种基于社会科学工具的替代对齐方法，该方法由三个步骤组成：定义人类/人工智能协作的积极期望社会结果，正确界定已知和未知，以及组建多样化团队来研究、观察和应对对齐中出现的挑战。

May, 2024

超越人工智能对齐中的偏好

本研究针对传统人工智能对齐方法所面临的问题进行探讨，指出偏好并不足以全面体现人类价值观。论文提出了一种新的对齐框架，强调人工智能系统应依据适当的社会角色规范标准进行对齐，以促进各利益相关者之间的协商，进而服务于多样化的目标，减少潜在的伤害。

Aug, 2024