策略平滑强化学习的奖励认证

Dec, 2023

Reward Certification for Policy Smoothed Reinforcement Learning

Ronghui Mu, Leandro Soriano Marcolino, Tianle Zhang, Yanghao Zhang, Xiaowei Huang...

TL;DR本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Abstract

reinforcement learning (RL) has achieved remarkable success in safety-critical areas, but it can be weakened by adversarial attacks. Recent studies have introduced "smoothed policies" in order to enhance its robu

reinforcement learning smoothed policies certification method perturbations convex optimisation

发现论文，激发创造

可验证强化学习的策略平滑算法

本文针对强化学习中的深度神经网络，提出了一种能够直接认证总奖励且无需在每一时间步骤都保持鲁棒性的有效方法，其中使用了采样平滑和基于样条插值的鲁棒性证明。

Jun, 2021

通过函数平滑证明强化学习的稳健策略

本文介绍了一种名为 CROP 的统一框架，该框架旨在提供针对行动和奖励水平的稳健性认证，通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法，包括 Atari 游戏和 Highway、CartPole 等环境，并证明了认证的准确性。

Jun, 2021

鲁棒离线强化学习 -- 确认置信区间

开发了一种算法，并使用随机平滑来获得对给定策略的离线鲁棒性认证，证明了其有效性，并在不同环境实验证明了算法的正确性。

Sep, 2023

稳健且平滑的深度强化学习策略

提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$，通过引入 smoothness-induced regularization，使学习到的 policy 对连续状态空间的过渡 smooth，提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明，该方法取得了效果的提升。

Mar, 2020

使用奖赏鞅的深度强化学习控制系统的鲁棒性验证

深度强化学习在控制系统领域得到了广泛应用，但其实际应用受到状态扰动的影响，导致系统性能下降。本研究提出了一种基于奖励鞅的鲁棒性验证方法，通过建立数学模型来描述状态扰动对系统性能的影响，为累积奖励问题提供了可靠的数值证明，并证明了奖励鞅可通过神经网络实现和训练，对不同类型的控制策略具有普适性。实验结果表明，所提出的方法的认证界限能有效地包围各种基于深度强化学习的控制系统的仿真结果。

Dec, 2023

扰动奖励的强化学习

本研究旨在提出一种在充满噪音的环境中学习的鲁棒性强的强化学习框架以及利用替代奖励来训练优化策略，实验表明我们的方法在提高期望奖励、加速收敛等方面的效果优于现有基线算法。

Oct, 2018

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

干扰奖励强化学习中的分布式奖励评论框架

我们研究了在未知奖励扰动情况下的强化学习，引入了一种自适应分布式奖励评论家模型，理论上证明它能在技术条件下恢复真实奖励，在离散和连续控制任务中取得了最高回报，甚至在未定向的扰动条件下也能超过基准线的设计。

Jan, 2024

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018

具有鲁棒性证明的策略优化

本文介绍了一种基于证明高鲁棒性的策略优化框架，称为 CAROL，在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习，并直接导致在收敛时返回的高鲁棒性证书。在四个 MuJoCo 环境中的实验评估显示，CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。

Jan, 2023