Meta SAC-Lag：通过基于元梯度的超参数调整实现可部署的安全强化学习

Aug, 2024

Meta SAC-Lag：通过基于元梯度的超参数调整实现可部署的安全强化学习

Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning

Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran

TL;DR本研究针对安全强化学习中的阈值微调问题，提出了一种统一的无模型Lagrangian架构Meta SAC-Lag。该方法采用元梯度优化，能够自动更新安全相关的超参数，在最小的超参数调优需求下，显著提升了策略的收敛性和安全性能，验证了在模拟和现实环境中的有效性。

Abstract

Safe Reinforcement Learning (Safe RL) is one of the prevalently studied subcategories of trial-and-error-based methods with the intention to be deployed on real-world systems. In safe RL, the goal is to maximize reward performance while minimizing constraints, often achieved by setting

发现论文，激发创造

软性演员-评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员-评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

PID Langrangian方法实现的强化学习响应性安全性

本研究解决拉格朗日算法在安全强化学习中产生超调和振荡的问题，提出了一种新的拉格朗日乘数更新方法，并将其应用于深度强化学习，成功在Safety Gym等安全基准中创造了新的最佳表现。

Jul, 2020

可行的演员-评论家算法：基于约束强化学习实现状态安全性保障

本文提出了可行行动者-评论家(FAC)算法，是第一个考虑到每个初始状态的状态安全性的无模型约束RL方法，通过构造基于RL采样的状态Lagrange函数并采用附加神经网络逼近状态Lagrange乘数，我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。

May, 2021

基于模型的安全强化学习的保守和自适应罚函数

提出了一种基于模型的安全RL框架CAP，可保证在真实环境中所有的中间解均是安全的，通过适应性地捕捉模型不确定性来平衡奖励和成本目标，并在RL训练过程中自适应地调整惩罚，以实现比之前的安全RL算法更高的样本效率和较少的违规。

Dec, 2021

元元强化学习与在线LQR中的任务相关损失函数

我们提出了一个样本高效的元强化学习算法，通过学习任务导向方式下的系统模型，在元强化学习中利用价值信息迅速捕捉环境的决策关键部分，并借助损失函数来学习任务推断模块和系统模型，从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线LQR问题中进行评估，实证验证了其从观测中提取解决任务所需信息的高效性。

Dec, 2023

基于可微凸规划的约束元元强化学习用于可调适安全保证

通过元学习方法，本文研究了在非稳态环境下确保安全性的独特挑战，并采用可微凸规划的连续凸约束策略更新，以实现在受限环境中的元学习和快速任务适应。

Dec, 2023

安全优化增强学习通过多目标策略优化

基于多目标策略优化框架的新型无模型安全强化学习算法引入，通过环境奖励函数和安全评论家对策略进行优化，以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件，并引入了一个攻击参数，允许对所述权衡进行微调。实证结果表明，与六种不同最新颖的Safe RL方法相比，提出的SORL算法在七个不同的机器人环境中显著减少了安全违规次数，并获得更高或竞争性的策略回报，在安全关键应用方面表现出明显的优越性。

Feb, 2024

基于采样的安全强化学习在非线性动力系统中的应用

我们开发了一种可证明安全和收敛的非线性动态系统控制的强化学习算法，填补了控制理论的强安全性保证和强化学习理论的收敛保证之间的差距。我们的方法通过单阶段的基于采样的方式，在学习过程和实际应用中满足硬约束条件，同时享有经典的收敛保证，我们在仿真环境中验证了我们方法的有效性，包括一个具有挑战性障碍避免问题的四旋翼无人机的安全控制，并证明其胜过现有的基准模型。

Mar, 2024

安全强化学习中平衡奖励与安全性优化：梯度操控视角

利用梯度操作理论解决强化学习中奖励和安全之间的冲突，通过提出一种软切换策略优化方法实现奖励和安全的平衡，进而提供一个安全强化学习框架。

May, 2024

元强化学习的理论分析：泛化界限与收敛保证

这项研究探索了元强化学习（Meta RL），通过对定义泛化限制和确保收敛的深入研究。通过采用一种创新的理论框架，评估了Meta RL算法的有效性和性能。研究分析了影响Meta RL适应性的因素，揭示了算法设计与任务复杂性之间的关系。此外，我们根据已经证明的条件确保Meta RL策略收敛于解决方案。该研究全面了解了Meta RL算法在各种情况下的收敛行为，从而深入探究了其长期性能的驱动力，包括收敛和实时效率，提供了对这些算法的能力的透视。

May, 2024