通过 $l_∞$ 利普希茨策略网络提高强化学习对观测扰动的鲁棒性
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。
Apr, 2024
本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键 RL 环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误差时实现高强度鲁棒性。
Sep, 2022
建立强大的政策对抗或干扰深度强化学习代理至关重要,最近的研究探讨了状态对抗鲁棒性并暗示缺乏最优的鲁棒政策(ORP),从而在设置严格的鲁棒性约束方面提出了挑战。本文进一步研究了 ORP,首先引入了政策一致性假设(CAP),即马尔可夫决策过程中的最优操作在轻微扰动下保持一致,通过实证和理论证据得到支持。在 CAP 的基础上,我们关键地证明了一种确定性和平稳的 ORP 的存在,并与 Bellman 最优政策相一致。此外,我们说明了在最小化 Bellman 误差以获得 ORP 时,L^∞-norm 的必要性。这一发现阐明了针对具有 L^1-norm 的 Bellman 最优政策的先前 DRL 算法的脆弱性,并激励我们训练了一个一致对抗鲁棒深度 Q 网络(CAR-DQN),通过最小化 Bellman 无穷误差的替代品。CAR-DQN 在各种基准测试中的顶级性能验证了其实际有效性,并加强了我们理论分析的可靠性。
Feb, 2024
本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异,并通过求解凸优化问题确定认证边界。理论分析和实验结果表明,我们的方法不仅提高了平均累积奖励的认证下界,而且比最先进的技术更高效。
Dec, 2023
提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$,通过引入 smoothness-induced regularization,使学习到的 policy 对连续状态空间的过渡 smooth,提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明,该方法取得了效果的提升。
Mar, 2020
本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略,实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。
Oct, 2018
本文研究了在观测结果高维的情况下,强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法,该算法学习目标任务的健壮策略,其采样复杂度是地平线次数的多项式,并且可以利用先前的知识独立于状态数。
May, 2022
研究了强化学习在面对敌对攻击 (即使状态的扰动) 时的鲁棒性,并提出了一种基于 ATLA 框架的方法来增强 Agent 的鲁棒性,通过训练 online 的对抗学习可以达到最优敌对攻击框架与提前学习历史数据等手段,从而提高强化学习在实验中的表现。
Jan, 2021