对抗性鲁棒深度强化学习需要重新定义鲁棒性
提出了一种稳健性的敌对训练(robust adversarial reinforcement learning, RARL)方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
本文提出了针对强化学习的对抗攻击,并通过这些攻击提高了深度强化学习算法对参数不确定性的鲁棒性。我们展示了即使是一个简单的攻击也能成功降低深度强化学习算法的性能,并进一步使用工程丢失函数的梯度信息改进了攻击方法,导致性能进一步降低。这些攻击方法被用于训练中,以改善 RL 控制框架的鲁棒性。我们展示了在 Cart-pole,Mountain Car,Hopper 和 Half Cheetah 等 RL 基准测试环境中,对 DRL 算法进行对抗训练可以显著提高其对参数变化的鲁棒性。
Dec, 2017
本文调查了深度强化学习网络在训练时间和测试时间的对抗攻击中的鲁棒性,结果显示在非连续的训练时间攻击中,通过调整策略,Deep Q-Network (DQN)代理能够恢复和适应对抗条件,相比较ε-贪婪和参数空间噪声探索方法,本文还对鲁棒性和抗干扰性进行了比较。
Dec, 2017
该研究提出了RADIAL-RL框架,以提高深度强化学习代理的鲁棒性,经实验表明,RADIAL-RL代理在对抗攻击下的性能表现出色,同时提出了一种新的评估方法,称为Greedy Worst-Case Reward (GWC)。
Aug, 2020
这篇文章提出了一种检测存在非鲁棒方向的新方法,基于深度神经网络策略损失的局部二次逼近,解决了在强化学习中高度复杂状态下存在的政策不稳定问题,并证明了其在对抗攻击环境中的有效性。
Jun, 2023
该论文提出了一种算法,旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标,其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察,从而最大化代理采取不同行动的概率,而策略网络通过更新参数来最小化这种扰动的影响,同时最大化预期的未来奖励,从而保持稳健性。基于这一设置,我们提出了一种实用的深度强化学习算法ARPO(对抗鲁棒策略优化),以找到一个能够适应未知环境的鲁棒策略。我们在Procgen和Distracting Control Suite上评估了我们的方法的泛化能力和样本效率。实验证明,与一些基线算法(包括数据增强)相比,ARPO展现出了更好的性能。
Aug, 2023
该研究提出了一个框架,通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性,并以D4RL基准进行了评估,结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性,为提高实际场景中离线强化学习模型的可靠性提供了希望。
May, 2024
该研究利用深度强化学习探讨了鲁棒策略网络的优势,通过分析其在振荡摆和Atari Pong等问题上的实证性能和稳健性,证明了具有小Lipschitz界限的策略网络相比由普通多层感知机或卷积神经网络组成的无约束策略在扰动、随机噪声和有针对性的对抗攻击方面更加稳健。此外,研究还发现选择一个具有非保守的Lipschitz界限和具有表达力的非线性层结构的策略参数化方法可以更好地平衡性能和稳健性的权衡,优于现有基于谱标准化的最新方法。
May, 2024