演化约束强化学习策略

Apr, 2023

Evolving Constrained Reinforcement Learning Policy

Chengpeng Hu, Jiyuan Pei, Jialin Liu, Xin Yao

TL;DR本文提出了一种新的进化约束强化学习算法，它使用随机排序自适应平衡奖励和约束违规，并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明，我们的方法在机器人控制测试中表现出优异的性能，同时，消融分析显示引入随机排序和约束缓冲的好处。

Abstract

evolutionary algorithms have been used to evolve a population of actors to generate diverse experiences for training reinforcement learning agents, which helps to tackle the temporal credit assignment problem and

evolutionary algorithms reinforcement learning constrained problems stochastic ranking robotic control

发现论文，激发创造

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

演化强化学习的合作协同进化

本文提出了一种新颖的合作共进化强化学习（CoERL）算法，旨在解决高维度神经网络优化效率问题，通过将策略优化问题分解为多个子问题并进化各个子问题的神经网络种群，使用部分梯度来更新策略，以提高采样效率。在六个基准运动任务上的实验表明，CoERL 优于七种最先进的算法和基准模型，并通过消融研究验证了 CoERL 核心要素的独特贡献。

Apr, 2024

弹韧性约束强化学习

我们提出了一种新的约束强化学习方法，通过在学习目标中引入放松成本来适应放松约束，以实现对策略和约束规格的联合搜索，然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化，最后通过计算实验来证明我们方法的优点和有效性。

Dec, 2023

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020