AI 安全中的临界性概念

Jan, 2022

The Concept of Criticality in AI Safety

Yitzhak Spielberg, Amos Azaria

TL;DR本文提出了一种更有效的解决AI安全中的价值同步问题的解决方案，其方法是利用关键指标来测量动作的重要性，只在关键动作时需要操作者进行干预，操作者在处理其他工作时也能保证安全。

Abstract

When AI agents don't align their actions with human values they may cause serious harm. One way to solve the value alignment problem is by including a human operator who monitors all of the agent's actions. Despi

发现论文，激发创造

分布式多智能体强化学习的动态安全可中断性

本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Apr, 2017

重复逆强化学习

介绍了一种新颖的反向强化学习问题：代理人必须代表人类执行一系列任务，并希望在行动不符合人类期望时最小化惊讶人类的任务数量，每当人类感到惊讶，代理人会提供人类所期望的行为演示。

May, 2017

人工智能安全的网格世界

该研究提出了一系列强化学习环境，说明智能代理的各种安全属性问题。我们通过为每个环境配备一个隐藏的性能函数来衡量与预期安全行为的一致性，该研究将AI安全问题分为强健性问题和规范问题。我们在这些环境中评估了两种深度强化学习代理A2C和Rainbow，并展示了它们不能令人满意地解决这些问题。

Nov, 2017

意图一致的AI系统削弱人类代理能力：AI安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在“代理基础”领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

迈向保证安全的人工智能：确保强大可靠 AI 系统的框架

通过世界模型、安全规范和验证器的相互作用，提出了一系列保证安全的人工智能（AI）方法，旨在为AI系统提供高保证的量化安全保证，并描述了核心技术挑战和潜在解决方案。

May, 2024

人工智能安全: 一代新的生成式人工智能和控制系统安全的后裔

泛人工智能与人类的互动达到了前所未有的规模，为巨大的积极影响提供了新途径，但也引发了广泛关注，担忧其对个体和社会可能造成的伤害。本文中，我们认为，对这些人工智能技术的有意义的安全保证只能通过思考人工智能输出与人类行为之间形成的反馈循环如何推动交互走向不同结果来实现。为此，我们设想了从控制论到人类中心的人工智能安全的快速增长能力之间的高价值契机，为未来几十年的人类中心人工智能安全奠定了新基础。

May, 2024

保护AI代理：开发和分析安全架构

本研究针对AI系统中的安全性问题，特别是在协作环境中，提出了三种新的安全架构框架，以增强AI代理的安全协议。通过对不安全用例进行综合评估，发现这些框架能够显著提升AI代理系统的安全性，降低潜在风险，从而为确保AI技术在实际应用中的负责任使用奠定基础。

Sep, 2024

强化学习的临界性与安全边际

本研究针对传统强化学习方法在某些情况下可能遇到的不安全情况，提出了一种既有可量化的标准真值又易于用户理解的临界性框架。通过引入实际临界性和代理临界性，我们发现，监督5%的决策可以潜在地避免近一半的错误，为自动化系统的调试和监督提供了新的思路。

Sep, 2024

从稳态到资源共享：生物和经济兼容的多目标多智能体AI安全基准

本研究解决了目前AI安全领域中对人类价值观的自动化经验测试缺乏的问题。通过引入稳态和资源共享等生物和经济动机主题，本文展示了现代强化学习文献中在安全性方面被忽视的多个目标和平衡的必要性。研究成果表明，当前主流AI安全讨论存在显著不足，需进一步完善相关基准。

Sep, 2024

代理人工智能系统中的风险对齐

本研究探讨了如何安全地创建和对齐代理人工智能，特别关注其风险态度对用户满意度和信任的影响。研究表明，确保代理AI的风险态度与用户一致，能够减少潜在的责任缺口，并为社会产生积极影响。

Oct, 2024