SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习
我们提出了一种名为 Safe Adversarial Trained Actor Critic (SATAC) 的算法,用于在数据覆盖有限的情况下,对离线强化学习(RL)中的一般函数近似进行训练。SATAC 作为一个两个玩家的 Stackelberg 游戏进行操作,其特点是一个精细的目标函数。由于演员(领导者玩家)优化策略以对抗两个敌对训练的价值评论者(从属玩家),他们专注于演员性能低于行为策略的情况。我们的框架提供了理论保证和强大的深度强化学习实现。理论上,我们证明了当演员使用无悔优化预测器时,SATAC 可以实现两个保证:(i)首次在离线 RL 设置中,我们建立了 SATAC 可以产生优于行为策略的策略,同时保持相同的安全水平,这对于设计离线 RL 算法至关重要;(ii)我们证明该算法在广泛的超参数范围内保证策略改进,表明其具有实际的鲁棒性。此外,我们提供了一个实用版本的 SATAC,并将其与现有的连续控制环境中的最先进的离线安全 RL 算法进行了比较。SATAC 在一系列任务中表现优于所有基准算法,从而验证了理论性能。
Jan, 2024
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速度,并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能,在样本效率和渐近性能方面优于以往的在线和离线算法。
Dec, 2018
该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC),展示了在不同机器人控制任务中,该算法比风险中性方法具有更高的条件值 - at-Risk (CVaR),并且在自然分布转移的情况下,O-RAAC 学习到具有良好平均表现的策略。
Feb, 2021
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC 在所有情景下(无对手、安全对手、性能对手)实现了高性能和持续的安全性,并且明显优于所有基准线。
Sep, 2023
本研究提出使用敌对模型来促进探索及提高效率,从而解决各类探索困难且奖励很少的问题,发现使用 Adversarially Guided Actor-Critic 比当前的现有方法都更加有效。
Feb, 2021
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
Oct, 2023
本篇论文在软性演员批评的强化学习中加入松弛变量,以适当处理不等式约束,最大化策略熵,从而实现了更高的稳定性和更稳定的学习,适用于真实世界的机器人控制。
Mar, 2023
本文提出了可行行动者 - 评论家 (FAC) 算法,是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法,通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数,我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。
May, 2021
通过引入虚拟行动演员 - 评论家框架(VAAC),本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架,其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明,VAAC 相比现有算法改善了探索性能。
Nov, 2023
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024