数据驱动政策完善的理论研究

May, 2023

Towards Theoretical Understanding of Data-Driven Policy Refinement

Ali Baheri

TL;DR本文提出了一种数据驱动的政策细化方法，特别设计用于安全关键应用的强化学习。我们的方法利用数据驱动优化和强化学习的优势，通过迭代细化增强政策的安全性和最优性。我们的主要贡献在于这种数据驱动政策细化概念的数学形式化。此框架通过从数据驱动验证中出现的反例进行学习，系统地改进强化学习政策。此外，我们提出了一系列定理，阐明了我们方法的关键理论特性，包括收敛性、鲁棒性界限、泛化误差和对模型不匹配的适应性。这些结果不仅验证了我们方法的有效性，也为不同环境和场景下的行为提供了更深入的理解。

Abstract

This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for →

data-driven policy refinement reinforcement learning safety-critical applications mathematical formulation

发现论文，激发创造

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

何时信任你的模型：基于模型的策略优化

本文研究模型在强化学习算法中的使用，旨在解决生成数据的容易程度与模型生成数据的偏差之间的平衡问题。作者提出了一种基于模型的强化学习算法，并探讨了模型在策略优化中的作用。实践中，作者发现模型生成的在线策略数据总是不如真实的离线数据。然而，通过将模型泛化能力的经验估计纳入到分析中，可以证明模型的使用是合理的。最后，作者展示了一种简单的方法，使用从真实数据中分支的短模型生成滚动数据，具有比其他基于模型的方法更好的样本效率，可以匹配最佳无模型算法的渐近性能，并能处理其它基于模型的算法不能处理的问题。

Jun, 2019

学习带有专业指导的安全策略

提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

May, 2018

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022

使用 AI 经济学家建立数据驱动、可解释和健壮的政策设计基础

AI Economist 框架结合两级强化学习和数据驱动的模拟，可用于优化政策设计，经实验证明该框架在 COVID-19 时期的政策制定中能够显著提高社会福利。

Aug, 2021

带有逻辑约束的谨慎强化学习

本文介绍了自适应安全填充的概念以及如何在学习过程中确保安全性，该方法利用强化学习合成最优控制策略来满足固定的目标逻辑公式，有效平衡探索效率和安全性，并提供了理论最优性和学习算法收敛的保证，实验结果表明了该方法的良好性能。

Feb, 2020

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023