分布式多智能体强化学习的动态安全可中断性
介绍了一种新颖的反向强化学习问题:代理人必须代表人类执行一系列任务,并希望在行动不符合人类期望时最小化惊讶人类的任务数量,每当人类感到惊讶,代理人会提供人类所期望的行为演示。
May, 2017
本文通过引入多智能体训练框架,提出交互式学习作为一种替代奖励或演示驱动学习的方法,并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现,最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下,与人类合作执行任务并获得更好表现的能力。
Jun, 2019
本文探讨了人类与机器学习系统的交互,并提出了一个通信协议,使得机器学习决策支持系统能够实现人机两方面的可理解性。在该通信协议中,符合一定兼容性条件的智能体之间进行交互,定义了弱/强两种双向可理解性,使得人类和机器学习系统之间实现了智能信息的双向交流。
Jan, 2023
为了确保人工智能系统的安全性和长期代理的保留,应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性,并且应该在“代理基础”领域进行研究,以改进我们对人工智能与人类交互中代理的理解。
May, 2023
如果一个AI代理在一个设置中被认为是安全的,那么它在一个类似的新设置中也是安全的; 我们研究了AI对齐的一个核心问题——我们训练和测试模型在一定的环境中,但在部署中需要确保在测试中被认为是安全的模型仍然是安全的;我们的安全概念基于追求权力,追求权力的代理是不安全的;我们以马尔科夫决策过程为模型,研究代理是否会抵抗关闭的关键类型的追求权力;我们还展示了在某些情况下安全是不稳定的,微小的扰动可能导致代理永远不关闭;我们还通过在MDP上定义一个双模拟度量来研究近似最优策略的情况,证明微小的扰动不会导致代理关闭所需时间变长;我们还研究了满足特定约束的MDP的策略,该约束适用于各种模型,包括语言模型,在这里,我们量化了不关闭的概率增加速度的界限:通过在MDP上定义一个度量;证明不关闭的概率作为MDP上的函数是下半连续的;并且给出了这个函数减小的速度上界。
Jan, 2024
本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法,通过借助单个人类专家的指导,让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率,证实了在人类指导下,智能体能够有效协作,且实验结果能够应用于现实世界。
Sep, 2024