贝叶斯预言者能否防止智能体造成的伤害?
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016
本文提出了一种基于概率模型检查的学徒式学习算法,可确保在仍能保持性能的情况下实现安全性,将未知奖励函数视为状态特征的线性组合,并以概率计算树逻辑为基础的安全属性规范。
Oct, 2017
研究了在敌对输入扰动下,贝叶斯神经网络的概率安全性,使用非凸优化松弛技术计算贝叶斯神经网络概率安全性的下界,并且证明方法可用于对具有数百万参数的BNN进行概率安全性的认证。
Apr, 2020
本文提出了MOSAIC算法,通过概率模型检查深度强化学习代理在随机环境中的安全性,为控制器的执行构建正式抽象,并产生有限时间范围内安全行为的概率性保证,本研究在多个基准控制问题的代理进行了实施和评估。
May, 2020
本文提出了一个针对安全探索的方法,通过与安全需求反例指导训练,将连续和离散状态空间系统抽象成紧凑的抽象模型,并利用概率反例生成构造出最小化安全需求违规的模拟子模型,从而使代理人能够有效地训练其策略,以在随后的在线探索过程中尽量减少安全违规风险。
Jul, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023
如果一个AI代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于追求权力,追求权力的代理是不安全的;我们以马尔科夫决策过程为模型,研究代理是否会抵抗关闭的关键类型的追求权力;我们还展示了在某些情况下安全是不稳定的,微小的扰动可能导致代理永远不关闭;我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况,证明微小的扰动不会导致代理关闭所需时间变长;我们还研究了满足特定约束的MDP的策略,该约束适用于各种模型,包括语言模型,在这里,我们量化了不关闭的概率增加速度的界限:通过在MDP上定义一个度量;证明不关闭的概率作为MDP上的函数是下半连续的;并且给出了这个函数减小的速度上界。
Jan, 2024
对于当前(和预期的)人工智能工具存在的一种新风险进行了研究。我们在进行未来行动的有效决策时需要进行不确定性推理,这对许多关键实际问题至关重要。面临这一挑战,对于辅助决策者的人工智能工具(如LLMs)的需求不断增长。然而,我们目前对于LLMs在此方面的能力尚不充分理解,且在基本计算爆炸和深层不确定性约束下,其性能无法保证。该报告阐述了RUU对人类和机器都具有挑战性的原因,并将这些困难与潜在的人工智能时间表和能力联系起来。我们揭示了这种潜在的误用风险如何与更广泛的基本结构风险相连接,从而产生非线性的危害。报告还提供了一个解决方案路线图,针对问题结构中的多个影响点进行了建议。这包括对所有相关方(潜在用户、开发人员和决策者)的建议,并融入了关于深度不确定性下的决策制定和复杂系统理论的见解。我们认为,该报告不仅提高了人们对当前一种新的人工智能风险的认识,并通过说明其相互关联性如何伪装其存在来增强其潜在影响的认识,从而起到了减轻和纠正的作用。
Jan, 2024
通过世界模型、安全规范和验证器的相互作用,提出了一系列保证安全的人工智能(AI)方法,旨在为AI系统提供高保证的量化安全保证,并描述了核心技术挑战和潜在解决方案。
May, 2024