高效对抗引导的强化学习鲁棒性优化
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本文针对电网控制系统的弱点进行研究,发现现有的强化学习算法存在敏感性,容易受到恶意攻击,提出了一种基于对抗训练的解决方案,以增强算法的安全性和鲁棒性。
Oct, 2021
基于强化学习在现实世界中的蓬勃发展,我们研究了在状态对抗攻击模型下的策略稳健性,并致力于在有限策略类中找到既稳健又高效的近最优解,通过迭代发现非支配策略形成一个最小的近最优解,从而确保在不同攻击场景下的适应性。
Feb, 2024
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
Mar, 2019
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。
Sep, 2019
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
介绍了在存在对手的目标条件学习中,使用 DigitFlip 和 CLEVR-Play 两个新的目标条件环境,提出了用于目标条件学习的 EHER 和 CHER 两种算法,并评估了它们的性能,最终介绍了 IGOAL:一种新的目标条件学习框架。实验结果表明,将 IGOAL 与 EHER 相结合可以显著地超过现有方法,在对抗随机和能力对手时表现更好。
Nov, 2022
通过两个代理人之间的迭代互动,通过生成展现防御代理人弱点的提示并根据奖励模型的反馈改进回应,本文在安全场景中理论上证明了这种反复强化学习优化会收敛到由代理人引发的博弈的纳什均衡,并实验证明了在这样竞争环境中的学习不仅可以充分训练代理人,而且还可以提高对抗性和防御性代理人的泛化能力。
Jun, 2024
该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现,将学习问题定义为自主系统与环境干扰之间的两人博弈,扩展为半竞争的情况,结果表明对手更好地捕捉了有意义的干扰,从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。
Mar, 2019