张量再生核希尔伯特空间中的安全强化学习

Dec, 2023

张量再生核希尔伯特空间中的安全强化学习

Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space

Xiaoyuan Cheng, Boli Chen, Liz Varga, Yukun Hu

TL;DR本文探讨了在部分可观察环境下的安全强化学习问题，旨在实现安全可达性目标。通过提出一种基于随机模型的方法，在面对未知系统动态和部分观测环境时，几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间，对未来的多步观测进行了解析表示，并通过核贝叶斯规则导出了关键操作，可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下，为强化学习算法建立了多项式样本复杂度，确保了 ε- 次优安全策略保证。

Abstract

This paper delves into the problem of safe reinforcement learning (RL) in a partially observable environment with the aim of achieving safe-reachability objectives. In traditional partially observable

safe reinforcement learning partially observable environment markov decision processes predictive state representation reproducing kernel hilbert space

发现论文，激发创造

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024

经证明高效的部分可观察风险敏感强化学习与事后观测

该论文通过引入后见观察机制，研究了部分可观测环境下风险敏感强化学习的悔恨分析，提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时，能够实现多项式悔恨。该研究对强化学习的理论研究具有特殊意义。

Feb, 2024

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

利用随机潜在表示从像素学习安全强化学习

本文提出了一种基于像素观察安全的强化学习方法，在部分可观察的马尔可夫决策过程框架下，使用一种新颖的安全评估方法来训练安全策略，使用基准数据证明了其相对于现有方法具有竞争性的性能和满足安全约束条件。

Oct, 2022

基于物理信息的强化学习用于最大安全概率估计

通过最大安全概率的物理信息增强强化学习算法，提出了一种可以从少量样本中推断长期风险的风险量化和可达性分析方法。

Mar, 2024

安全强化学习中的迭代可达性估计

确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架，用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性，通过最小化累积折扣违规行为来产生最安全的行为，并基于可达性估计来优化我们提出的框架。我们在多个安全强化学习环境上评估了该方法，并与当前最先进的基准方法进行了比较，结果显示了在提高奖励性能和安全性方面的优势。

Sep, 2023

带 B - 稳定性的部分可观测强化学习：统一的结构条件和尖锐的样本高效算法

本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件，即 B 稳定性，并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习，并且取得了很好的样本复杂度。

Sep, 2022

基于置信度过滤器的安全强化学习

在强化学习应用于现实系统时，确保安全是一个关键的挑战。因此，我们通过概率动力学模型提供一种基于控制理论的置信度安全过滤器方法，用于认证通过标准强化学习技术学习的名义策略的状态安全约束条件，将安全验证降低到标准强化学习任务。利用幻想输入的概念，我们将这种方法扩展到确定对未知系统具有高概率安全的 “备份” 策略。最后，在朝向备份策略的滚动过程中，每个时间步骤最小调整名义策略，以保证安全恢复。我们提供了正式的安全保证，并在实验中证明了我们方法的有效性。

Jul, 2022