排除无关因素：通过连续动作屏蔽集中增强学习

Jun, 2024

排除无关因素：通过连续动作屏蔽集中增强学习

Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking

Roland Stolz, Hanna Krasowski, Jakob Thumm, Michael Eichelbeck, Philipp Gassert...

TL;DR本研究论文中，我们提出了三种连续动作屏蔽方法，以精确地将动作空间映射到与状态相关的相关动作集合，从而确保只有相关动作被执行，提高增强学习代理的可预测性，并使其在安全关键应用中得到应用。实验结果显示，这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。

Abstract

continuous action spaces in reinforcement learning (RL) are commonly defined as interval sets. While intervals usually reflect the action boundaries for tasks well, they can be challenging for learning because th

continuous action spaces reinforcement learning action masking methods training efficiency predictability

发现论文，激发创造

深度强化学习中动态间隔限制的行动空间用于避障

本篇论文研究了在动态障碍物路径规划中存在的区间限制问题，提出了两种方法，分别扩展了参数化强化学习和 ConstraintNet 以处理任意数量的区间，结果表明，在无限制约束的情况下，动作值的离散掩码是唯一有效的方法，在学习到约束时，则需要根据具体任务选择使用投影、掩码或 ConstraintNet 修改。

Jun, 2023

无先验掩码：简化深度强化学习中的冗余动作

通过分析理论并提出一个新的冗余动作过滤机制，我们展示了一种用于策略优化的简单而高效的方法，它通过估算状态分布之间的距离构建相似度因子，并结合修改后的逆模型来避免在高维状态空间中进行大量计算。我们在高维、像素输入和随机问题上进行了广泛实验，证明了我们方法的卓越性能。

Dec, 2023

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

策略梯度算法中无效动作屏蔽的深入研究

本文研究探讨针对复杂的规则游戏，使用深度强化学习算法时，如何解决学习出的策略生成的无效动作问题，给出了合理的理论支持，实证了有效性，并给出了不同的行动遮罩方案的评估。

Jun, 2020

强化学习中的知识迁移无效行为学习

该研究提出了一种系统性的方法来将先验知识引入强化学习算法中，试图通过学习无关的行为来降低样本复杂性，并通过实验证明了其可以提高算法的样本效率和转移学习能力。

Nov, 2022

使用调制掩码的终身强化学习

该研究论文介绍了在深度强化学习中运用调制掩蔽技术解决任务交叉影响和对抗遗忘等问题的方法，并提出一种利用预先学到的知识来学习新任务的线性组合方案，在离散和连续强化学习任务中实现了优异的性能。

Dec, 2022

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

有效离线策略评估学习策略

研究提出了一种新型的强化学习框架，采用高级别动作空间，包括一组等效的任意长度的动作序列，能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架，实验证明，该框架能够使代理在每一集与环境打交道的次数更少，从而提高性能。

Jun, 2021