关闭开关游戏
研究了在多代理系统中如何利用贝叶斯学习来控制单一代理,从而完成任务并最大化收益,包括如何将证据纳入概率信念中,如何影响长期利润的先验信念以及如何检验推断类型的正确性。
Jul, 2015
本文研究强化学习中的安全中断问题,提出了针对分散学习问题的动态安全中断定义,并探讨了在联合行动学习者和独立学习者中的应用,提出了可行的必要条件,并指出在独立学习者中使用动态安全中断需要添加特定算法。
Apr, 2017
我们调查了受限理性的代理如何随着时间的推移受到自我修改的负面影响,分析了其大小与代理的理性失误的类型和严重程度之间的关系,其中特别指出在选择非最佳行为的情况下可能会出现指数级错误对齐的情况。
Nov, 2020
本文探讨如何在没有完全解决 AI 认知对齐问题的情况下构建仍然对世界有限制影响和不寻求权力的智能 AI 。文章介绍了 AUP 方法,阐述了其在仿真环境中的有效性,并形式化地定义了副作用规避和特指 AI 代理在寻求最优决策时的动机问题,这可能导致抵制校正。
Jun, 2022
通过将有限理性概念与信息论观点相结合,将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动,模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。
Oct, 2022
研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下RL算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线RL基准结果和创建未来基准时应该被考虑。
Jun, 2023
如果一个AI代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于追求权力,追求权力的代理是不安全的;我们以马尔科夫决策过程为模型,研究代理是否会抵抗关闭的关键类型的追求权力;我们还展示了在某些情况下安全是不稳定的,微小的扰动可能导致代理永远不关闭;我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况,证明微小的扰动不会导致代理关闭所需时间变长;我们还研究了满足特定约束的MDP的策略,该约束适用于各种模型,包括语言模型,在这里,我们量化了不关闭的概率增加速度的界限:通过在MDP上定义一个度量;证明不关闭的概率作为MDP上的函数是下半连续的;并且给出了这个函数减小的速度上界。
Jan, 2024
提出了一种使用 Discounted REward for Same-Length Trajectories (DREST) 奖励函数的不完全偏好方案,以训练人工智能代理,使其既追求目标而且中立对待轨迹长度。实验结果表明,DREST 奖励函数能够使简单代理在网络中变得有用且对轨迹长度保持中立,进一步证明该函数可以用于训练先进的代理,使其成为有用且可关闭的。
Jun, 2024