具有鲁棒性证明的策略优化

Jan, 2023

Policy Optimization with Robustness Certificates

Chenxi Yang, Greg Anderson, Swarat Chaudhuri

TL;DR本文介绍了一种基于证明高鲁棒性的策略优化框架，称为 CAROL，在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习，并直接导致在收敛时返回的高鲁棒性证书。在四个 MuJoCo 环境中的实验评估显示，CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。

Abstract

We present a policy optimization framework in which the learned policy comes with a machine-checkable certificate of adversarial robustness. Our approach, called CAROL, learns a model of the environment. In each

policy optimization adversarial robustness machine learning certified policies continuous state and action spaces

发现论文，激发创造

政策证书：朝着可追溯的强化学习

提出了输出策略证书的强化学习算法，这些证书限制了下一个 episode 策略的次优性和回报，并保证了算法策略和证书质量的理论分析，同时这个算法是第一个实现了 minimax-optimal PAC bounds 的，能够在一些情况下与现有的 minimax regret bounds 匹配或略有改善。

Nov, 2018

合作多智能体强化学习的认证策略平滑化

提出了基于虚警率控制和基于树搜索的算法用于分析多智能体的鲁棒性。实验证明该方法产生的可靠性界限比现有模型更紧密。

Dec, 2022

动作鲁棒性强化学习及其在连续控制中的应用

研究了如何在存在不确定性的情况下通过改进强化学习算法来实现机器人动作鲁棒性，以此应对干扰和突发情况，并探讨其潜在的正则化效果。

Jan, 2019

通过函数平滑证明强化学习的稳健策略

本文介绍了一种名为 CROP 的统一框架，该框架旨在提供针对行动和奖励水平的稳健性认证，通过局部平滑算法和全局平滑算法来保证措施的鲁棒性。CROP 被用于评估几种现有的 RL 算法，包括 Atari 游戏和 Highway、CartPole 等环境，并证明了认证的准确性。

Jun, 2021

具有概率策略执行不确定性的高效动作稳健强化学习

本文探讨了具有概率性策略执行不确定性的抗干扰强化学习问题，并提出了 ARRLC 算法，该算法具有极小化最坏情况下收益损失和样本复杂性的性质，并在实验中验证了其在存在干扰情况下的稳健性。

Jul, 2023

鲁棒离线强化学习 -- 确认置信区间

开发了一种算法，并使用随机平滑来获得对给定策略的离线鲁棒性认证，证明了其有效性，并在不同环境实验证明了算法的正确性。

Sep, 2023

深度强化学习的对抗状态不确定性可证明鲁棒性

本研究基于对认证对抗鲁棒性研究的探讨，为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰，从而有效提高了系统的鲁棒性。

Apr, 2020

软 - 鲁棒的演员 - 评论家策略梯度算法

本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法，能够学习针对不确定性模型的最优策略且避免过于保守，实验证明其收敛性和高效性。

Mar, 2018

深度强化学习的认证对抗鲁棒性

本文研究基于深度神经网络的自主决策系统的安全性，提出了一种基于认证对抗鲁棒性的在线防御机制，该机制计算执行过程中状态 - 动作值的保证下限，以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动，在行人碰撞回避场景和一个经典控制任务中，该方法显示出提高对噪声和对手的鲁棒性。

Oct, 2019

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023