提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本文针对电网控制系统的弱点进行研究,发现现有的强化学习算法存在敏感性,容易受到恶意攻击,提出了一种基于对抗训练的解决方案,以增强算法的安全性和鲁棒性。
Oct, 2021
本研究引入了群体对抗训练方法以增强强化学习代理的鲁棒性和优化性能,通过在最优解决方案的近似嵌套和更加普适性的选取方式进行了验证。
Jun, 2023
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
Mar, 2019
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
通过种群训练对抗性方案以增加对手的多样性,从而提高自我对抗强化学习的鲁棒性。
Aug, 2022
基于强化学习在现实世界中的蓬勃发展,我们研究了在状态对抗攻击模型下的策略稳健性,并致力于在有限策略类中找到既稳健又高效的近最优解,通过迭代发现非支配策略形成一个最小的近最优解,从而确保在不同攻击场景下的适应性。
Feb, 2024
该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现,将学习问题定义为自主系统与环境干扰之间的两人博弈,扩展为半竞争的情况,结果表明对手更好地捕捉了有意义的干扰,从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。
本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack,旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题,并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案,在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。
Feb, 2022
研究了机器学习在具备恶意状态 / 执行机构攻击下的表现,介绍了深度强化学习在决策和控制任务中存在漏洞的问题,提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。
Jul, 2020