深度强化学习的验证性概率策略

Jan, 2022

Verified Probabilistic Policies for Deep Reinforcement Learning

Edoardo Bacci, David Parker

TL;DR本研究提出了一种基于 Markov 决策过程、混合整数线性规划、熵式细化和概率模型检验的抽象方法，用于验证深度强化学习中的概率策略，并在一些强化学习基准测试上验证了其有效性。

Abstract

deep reinforcement learning is an increasingly popular technique for synthesising policies to control an agent's interaction with its environment. There is also growing interest in formally verifying that such policies are correct and execute safely. Progress has been made in this area

deep reinforcement learning formal verification probabilistic policies markov decision processes mixed-integer linear programming

发现论文，激发创造

随机强化学习策略的概率模型检验

我们介绍了一种验证随机强化学习政策的方法，该方法与任何强化学习算法兼容，只要算法及其对应的环境共同遵守马尔科夫属性。我们的方法将模型检验技术与强化学习相结合，利用马尔科夫决策过程、训练好的强化学习策略和概率计算树逻辑（PCTL）公式构建一个正式模型，并通过模型检验器 Storm 进行验证。我们在多个基准测试中展示了我们的方法的适用性，并与称为确定性安全估计和简单的整体模型检验方法进行了比较。我们的结果表明，我们的方法适用于验证随机强化学习政策。

Mar, 2024

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏（技术报告）

在强化学习中，为了解决政策简化和验证的挑战，作者们构建了 DeepMDP 框架，基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界，该边界可以为 MDP 的形式方法应用提供支持。同时，作者们还演示了如何通过最先进的 RL 获得一个政策，并使用该政策有效地训练一个 VAE 模型，获得这个模型的双模拟保证的近似正确性的提炼版。

Dec, 2021

安全深度强化学习的概率保证

本文提出了 MOSAIC 算法，通过概率模型检查深度强化学习代理在随机环境中的安全性，为控制器的执行构建正式抽象，并产生有限时间范围内安全行为的概率性保证，本研究在多个基准控制问题的代理进行了实施和评估。

May, 2020

应用 Lyapunov 障碍证书对深度强化学习控制器进行形式化验证

我们提出了一种新的方法来训练和验证基于 NLB 的证书，通过证书的序列设计和过滤来简化验证过程，并与神经网络验证引擎一起提供正式保证，以确保 DRL 代理实现其目标并避免不安全行为，通过在 DRL 控制的航天器上进行案例研究展示了该方法的优点。

May, 2024

深度概率模型的验证

该文章提出了一种验证深度概率模型的新框架，在模型输出过程中采样潜在变量并考虑其所需的条件输入，以高概率满足线性约束，并能够有效地验证功能空间中感兴趣的属性（单调性、凸性）

Dec, 2018

一种可验证强化学习的归纳综合框架

本文研究如何使用形式化验证技术对增强学习 - enabled 机器学习系统进行验证，以保证其行为安全，并提出了一种基于黑盒方法的综合确定性程序的方法来实现系统验证。

Jul, 2019

可扩展验证的深度二元强化学习

使用二值化神经网络 (BNNs) 的强化学习算法以提高可验证性的方法，解决了神经网络在安全关键场合应用上不可靠的问题。在训练 Atari 环境中的 BNNs 之后，我们验证了其鲁棒性属性。

Mar, 2022

深度强化学习控制的机器人和自主系统的可达性验证的可靠性评估

本文提出了一个用于 DRL 控制的机器人和自主系统的可靠性评估框架，并利用形式可靠性分析生成的验证证据，验证了其安全性。

Oct, 2022

通过策略提取实现可验证的强化学习

使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性，它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。

May, 2018

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017