使用奖赏鞅的深度强化学习控制系统的鲁棒性验证

Dec, 2023

使用奖赏鞅的深度强化学习控制系统的鲁棒性验证

Robustness Verification of Deep Reinforcement Learning Based Control Systems using Reward Martingales

Dapeng Zhi, Peixin Wang, Cheng Chen, Min Zhang

TL;DR深度强化学习在控制系统领域得到了广泛应用，但其实际应用受到状态扰动的影响，导致系统性能下降。本研究提出了一种基于奖励鞅的鲁棒性验证方法，通过建立数学模型来描述状态扰动对系统性能的影响，为累积奖励问题提供了可靠的数值证明，并证明了奖励鞅可通过神经网络实现和训练，对不同类型的控制策略具有普适性。实验结果表明，所提出的方法的认证界限能有效地包围各种基于深度强化学习的控制系统的仿真结果。

Abstract

deep reinforcement learning (DRL) has gained prominence as an effective approach for control systems. However, its practical deployment is impeded by state perturbations that can severely impact system performance

deep reinforcement learning robustness verification reward martingales system performance cumulative rewards

发现论文，激发创造

应用 Lyapunov 障碍证书对深度强化学习控制器进行形式化验证

我们提出了一种新的方法来训练和验证基于 NLB 的证书，通过证书的序列设计和过滤来简化验证过程，并与神经网络验证引擎一起提供正式保证，以确保 DRL 代理实现其目标并避免不安全行为，通过在 DRL 控制的航天器上进行案例研究展示了该方法的优点。

May, 2024

深度强化学习控制的机器人和自主系统的可达性验证的可靠性评估

本文提出了一个用于 DRL 控制的机器人和自主系统的可靠性评估框架，并利用形式可靠性分析生成的验证证据，验证了其安全性。

Oct, 2022

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023

基于深度强化学习的控制的可靠性量化

应用随机噪声提取方法和神经网络结构，在深度强化学习控制中提出一种可靠性量化方法，通过对两个神经网络的输出差异进行评估，改进了 DRL 控制性能和模型切换的问题。

Sep, 2023

深度强化学习的验证性概率策略

本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法，用于验证深度强化学习中的概率策略，并在一些强化学习基准测试上验证了其有效性。

Jan, 2022

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

单轨迹鲁棒分布式强化学习

提出了分布式鲁棒 Q 学习及其平均奖励变体，且在单轨迹训练的基础上，给出了渐近收敛保证和实验验证，证明其在扰动环境下的优越性。

Jan, 2023

随机强化学习策略的概率模型检验

我们介绍了一种验证随机强化学习政策的方法，该方法与任何强化学习算法兼容，只要算法及其对应的环境共同遵守马尔科夫属性。我们的方法将模型检验技术与强化学习相结合，利用马尔科夫决策过程、训练好的强化学习策略和概率计算树逻辑（PCTL）公式构建一个正式模型，并通过模型检验器 Storm 进行验证。我们在多个基准测试中展示了我们的方法的适用性，并与称为确定性安全估计和简单的整体模型检验方法进行了比较。我们的结果表明，我们的方法适用于验证随机强化学习政策。

Mar, 2024

动作鲁棒性强化学习及其在连续控制中的应用

研究了如何在存在不确定性的情况下通过改进强化学习算法来实现机器人动作鲁棒性，以此应对干扰和突发情况，并探讨其潜在的正则化效果。

Jan, 2019

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018