具有鲁棒性交叉熵方法的约束模型强化学习

Oct, 2020

具有鲁棒性交叉熵方法的约束模型强化学习

Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method

Zuxin Liu, Hongyi Zhou, Baiming Chen, Sicheng Zhong, Martial Hebert...

TL;DR本文研究对于稀疏指示信号的约束 / 安全强化学习问题。我们提出了一种基于模型的方法，使强化学习代理能够在未知系统动力学和环境约束下有效地探索环境。我们使用神经网络集成模型来估计预测不确定性，并以模型预测控制作为基本控制框架。我们提出了鲁棒的交叉熵方法来优化控制序列，考虑模型不确定性和约束。我们在安全体育场环境中评估了我们的方法。结果表明，我们的方法比现有基线模型学习完成任务的约束违规数量更少。此外，与有约束模型无关的强化学习方法相比，我们能够实现几个数量级更好的样本效率。代码可在 https://github.com/liuzuxin/safe-mbrl 获取。

Abstract

This paper studies the constrained/safe reinforcement learning (RL) problem with sparse indicator signals for constraint violations. We propose a

constrained/safe reinforcement learning sparse indicator signals model-based approach neural network ensemble model robust cross-entropy method

发现论文，激发创造

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

弹韧性约束强化学习

我们提出了一种新的约束强化学习方法，通过在学习目标中引入放松成本来适应放松约束，以实现对策略和约束规格的联合搜索，然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化，最后通过计算实验来证明我们方法的优点和有效性。

Dec, 2023

强化学习与集成模型预测安全认证

本文提出了一种名为集成模型预测安全认证的新算法，该算法结合了基于模型的深度强化学习和基于管道的模型预测控制，通过计划对学习代理所采取的行动进行修正，使安全约束违规最小化。我们的方法旨在通过仅需要由安全控制器生成的离线数据，尽量减少对实际系统的先验知识。我们的结果表明，与可比较的强化学习方法相比，我们可以实现显著减少的约束违规。

Feb, 2024

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024