高效强化学习（ERL）：通过动作饱和实现有针对性的探索

Nov, 2022

高效强化学习（ERL）：通过动作饱和实现有针对性的探索

Efficient Reinforcement Learning (ERL): Targeted Exploration Through Action Saturation

Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, Colin N. Jones

TL;DR本文提出了一种将先前的专家知识与连续 actor-critic RL 框架相结合的简单且有效的方法，以加速策略的学习过程并减少样本复杂度。结果显示，这种方法使得 RL agent 在保持最终性能的情况下，比传统的 RL agent 更快收敛一个数量级。

Abstract

reinforcement learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state space to find good policies. On the other hand, we postulate that →

reinforcement learning sample complexity expert knowledge actor-critic rl frameworks policy learning

发现论文，激发创造

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

强化学习中状态和动作空间的安全探索

本篇论文针对强化学习中的安全探索这一问题，提出 PI-SRL 算法在解决复杂任务，包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。

Feb, 2014

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

资源受限的增强学习中高效的探索

该研究形式化了有限资源下的强化学习问题，并提出了一种新颖的资源感知探索奖励，RAEB 可以显著提高在资源受限的强化学习环境中的样本效率，最高可提升一个数量级。

Dec, 2022

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

加速逆强化学习与专家引导

通过更好地利用专家演示，我们提出了两种简单的方法，即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态，以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中，我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍，在 Ant-v2 上提高 2.6 倍，在 Hopper-v2 上提高 18 倍，在 Walker2d-v2 上提高 3.36 倍。

Feb, 2024

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

极值寻求动作选择以加速策略优化

通过引入基于极值搜索控制的自适应控制步骤，改进了模型自由强化学习中的动作选择，在标准策略优化中提高了学习效率。

Apr, 2024

运动基元的深度黑盒强化学习

本篇论文提出了一种基于可微分的信任区间层的深度 Episode-based 强化学习算法，通过在高精度的情景下更新策略，使得不能被 Step-based 算法解决的稀疏奖励和非马尔科夫奖励能够被优化。在解决复杂的机器人控制任务方面，该算法优于 Step-based 算法，并且稀疏和非马尔科夫奖励更适合定义所需的行为参数，以获得更高质量的策略。

Oct, 2022

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022