基于物理信息的强化学习用于最大安全概率估计

Mar, 2024

基于物理信息的强化学习用于最大安全概率估计

Physics-informed RL for Maximal Safety Probability Estimation

Hikaru Hoshino, Yorie Nakahira

TL;DR通过最大安全概率的物理信息增强强化学习算法，提出了一种可以从少量样本中推断长期风险的风险量化和可达性分析方法。

Abstract

Accurate risk quantification and reachability analysis are crucial for safe control and learning, but sampling from rare events, risky states, or long-term trajectories can be prohibitively costly. Motivated by t

risk quantification reachability analysis maximal safety probability partial differential equations physics-informed reinforcement learning

发现论文，激发创造

一种通用的基于物理知识的学习框架，用于风险概率评估

本文提出了一种有效的方法，将蒙特卡洛方法和物理启发式神经网络相结合，利用偏微分方程来评估长期风险概率及其梯度，从而提高样本效率并适应更改的系统参数。

May, 2023

张量再生核希尔伯特空间中的安全强化学习

本文探讨了在部分可观察环境下的安全强化学习问题，旨在实现安全可达性目标。通过提出一种基于随机模型的方法，在面对未知系统动态和部分观测环境时，几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间，对未来的多步观测进行了解析表示，并通过核贝叶斯规则导出了关键操作，可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下，为强化学习算法建立了多项式样本复杂度，确保了 ε- 次优安全策略保证。

Dec, 2023

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

用于安全控制与学习的近视可验证的概率证书

该论文介绍了一种设计用于随机系统的安全证书的方法，重点是通过快速实时控制来确保长期安全。通过引入一种名为 “概率不变性” 的新颖技术，论文解决了长期安全与计算权衡之间的挑战，并将该技术整合到安全控制和学习中，实现了在随机环境下的长期安全控制和学习。

Apr, 2024

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

针对对抗性干扰的坚固安全强化学习

该论文提出了一种鲁棒安全强化学习框架，解决了在真实控制任务中应用强化学习时外部干扰的安全性问题，该框架通过建立鲁棒不变集合来保证安全，并采用约束强化学习算法进行策略优化。

Oct, 2023