基于灵活约束的层次强化学习优化

Feb, 2023

基于灵活约束的层次强化学习优化

Conditioning Hierarchical Reinforcement Learning on Flexible Constraints

Yuxiao Lu, Pradeep Varakantham, Arunesh Sinha

TL;DR该论文主要研究通过约束条件解决具有复杂安全约束的长期决策问题，提出了一种结合高级有约束规划代理和低级目标条件强化学习代理的机制，能够处理成本分布的约束，并在实验中验证了其实用性。

Abstract

Safety in goal directed reinforcement learning (RL) settings has typically been handled through constraints over trajectories and have demonstrated good performance in primarily short horizon tasks (goal is not too far away). In this paper, we are specifically interested in the problem

reinforcement learning temporally extended decision making safety constraints constrained planning with reinforcement learning autonomous electric vehicles

发现论文，激发创造

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

从未知奖励的演示中学习安全约束

该研究提出了凸约束学习用于强化学习的方法，该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程（CMDP）中的约束。与以往的方法不同，该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集，从而保证安全性，即使这些安全演示可能是次优的。该方法在表格环境和多个约束条件的连续驾驶模拟中得到了评估，并证明了可以学到安全行驶行为并且可以转移到不同的任务和环境中。

May, 2023

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

学习的非马尔可夫安全性约束下的安全强化学习

在安全强化学习中，我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献，并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法，最后，我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法，实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。

May, 2024

具有未知时间约束的安全强化学习策略联合学习

提出了一种结合逻辑约束强化学习算法和进化算法的框架，用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略，并且该框架以理论保证为支撑，成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略，以及证明了我们的方法的实践效果。

Apr, 2023

可达性约束强化学习

本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题，并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中，RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。

May, 2022

长短期约束驱动的安全强化学习在自动驾驶中的应用

提出一种基于长短期约束的安全强化学习算法，用于优化端到端自动驾驶的训练过程，实现连续状态和行动任务中更高的安全性和长距离决策任务中更高的探索性能。

Mar, 2024

Safe CoR: 用约束性回报集成模仿学习和安全强化学习的双专家方法

在自主机器人领域，确保复杂和动态环境下的安全性和可靠性仍然是一个重大挑战。通过引入安全约束，安全强化学习解决这些问题，但在复杂驾驶环境等复杂环境中仍面临挑战。为了应对这些挑战，我们提出了安全约束奖励（Safe CoR）框架，这是一种利用两种类型的专家演示（重点是性能优化的奖励专家演示和优先考虑安全性的安全专家演示）的新方法。通过利用约束奖励（CoR），我们的框架指导智能体平衡奖励总和的性能目标与安全约束。我们在包括 safety gym、metadrive 和真实世界的 Jackal 平台在内的多种环境中测试了所提出的框架。在真实世界的 Jackal 平台上，我们提出的框架提高了算法的性能 39% 并减少了约束违规 88%，证明了该框架的有效性。通过这种创新方法，我们期望在现实世界的性能方面取得重大进展，从而在安全可靠的自主机器人领域产生深远影响。

Jul, 2024

约束流形上的安全强化学习：理论与应用

将基于学习的技术，特别是强化学习，整合到机器人技术中来解决非结构化环境中的复杂问题很具有前景。本文展示了我们如何以原则性的方式将复杂的安全约束强加于基于学习的机器人系统中，从理论和实践的角度进行了展示。

Apr, 2024