通过函数平滑证明强化学习的稳健策略

ICLRJun, 2021

通过函数平滑证明强化学习的稳健策略

CROP: Certifying Robust Policies for Reinforcement Learning through Functional Smoothing

Fan Wu, Linyi Li, Zijian Huang, Yevgeniy Vorobeychik, Ding Zhao...

TL;DR本文介绍了一种名为 CROP 的统一框架，该框架旨在提供针对行动和奖励水平的稳健性认证，通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法，包括 Atari 游戏和 Highway、CartPole 等环境，并证明了认证的准确性。

Abstract

As reinforcement learning (RL) has achieved great success and been even adopted in safety-critical domains such as autonomous vehicles, a range of empirical studies have been conducted to improve its robustness a

reinforcement learning robustness certification adversarial attacks policies empirical studies

发现论文，激发创造

CROP: 基于紧凑重塑观察处理的分布偏移鲁棒性强化学习

本文提出 Compact Reshaped Observation Processing (CROP) 方法，通过减少用于策略优化的状态信息来提高数据效率和泛化能力，为完全可观测的观察和行动空间制定了三个 CROP，并在分布式安全格网世界中进行了实证展示。同时，与两个不同大小的程序生成的迷宫进行了基准比较，表明了 CROP 的改进。

Apr, 2023

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023

COPA: 离线增强学习中针对污染攻击进行认证鲁棒策略

本文介绍了针对强化学习在训练过程中的恶意攻击问题，提出了首个基于合规框架 COPA 的认证方案，证明了该方案在不同的认证标准下的有效性，同时通过在三种不同算法训练的 RL 环境上实验，发现不同算法和环境的鲁棒性存在差异。

Mar, 2022

CROP：基于模型的线下策略优化的保守奖励

通过引入保守性估计奖励的方法，本论文提出了一种创新的基于模型的离线增强学习算法，名为 CROP，该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励，从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中，CROP 的性能与最先进的基准算法相当。值得注意的是，CROP 建立了离线和在线增强学习之间的创新连接，突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。

Oct, 2023

鲁棒离线强化学习 -- 确认置信区间

开发了一种算法，并使用随机平滑来获得对给定策略的离线鲁棒性认证，证明了其有效性，并在不同环境实验证明了算法的正确性。

Sep, 2023

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

具有鲁棒性证明的策略优化

本文介绍了一种基于证明高鲁棒性的策略优化框架，称为 CAROL，在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习，并直接导致在收敛时返回的高鲁棒性证书。在四个 MuJoCo 环境中的实验评估显示，CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。

Jan, 2023

合作多智能体强化学习的认证策略平滑化

提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。

Dec, 2022

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

深度强化学习的对抗状态不确定性可证明鲁棒性

本研究基于对认证对抗鲁棒性研究的探讨，为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰，从而有效提高了系统的鲁棒性。

Apr, 2020