策略梯度算法中无效动作屏蔽的深入研究

Jun, 2020

策略梯度算法中无效动作屏蔽的深入研究

A Closer Look at Invalid Action Masking in Policy Gradient Algorithms

Shengyi Huang, Santiago Ontañón

TL;DR本文研究探讨针对复杂的规则游戏，使用深度强化学习算法时，如何解决学习出的策略生成的无效动作问题，给出了合理的理论支持，实证了有效性，并给出了不同的行动遮罩方案的评估。

Abstract

In recent years, deep reinforcement learning (DRL) algorithms have achieved state-of-the-art performance in many challenging strategy games. Because these games have complicated rules, an action sampled from the full discrete action distribution predicted by the learned policy is likel

deep reinforcement learning policy gradient algorithms valid actions invalid actions action masking

发现论文，激发创造

排除无关因素：通过连续动作屏蔽集中增强学习

本研究论文中，我们提出了三种连续动作屏蔽方法，以精确地将动作空间映射到与状态相关的相关动作集合，从而确保只有相关动作被执行，提高增强学习代理的可预测性，并使其在安全关键应用中得到应用。实验结果显示，这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。

Jun, 2024

无先验掩码：简化深度强化学习中的冗余动作

通过分析理论并提出一个新的冗余动作过滤机制，我们展示了一种用于策略优化的简单而高效的方法，它通过估算状态分布之间的距离构建相似度因子，并结合修改后的逆模型来避免在高维状态空间中进行大量计算。我们在高维、像素输入和随机问题上进行了广泛实验，证明了我们方法的卓越性能。

Dec, 2023

强化学习中的知识迁移无效行为学习

该研究提出了一种系统性的方法来将先验知识引入强化学习算法中，试图通过学习无关的行为来降低样本复杂性，并通过实验证明了其可以提高算法的样本效率和转移学习能力。

Nov, 2022

调查策略梯度算法中行动表示的影响

强化学习是一种用于解决复杂实际问题的多功能学习框架，本研究讨论了不同的分析技术，并评估它们对于研究强化学习中行为表示对学习性能的影响的有效性。实验证明行为表示对流行强化学习基准任务的学习性能有显著影响，分析结果指出性能差异的一部分可以归因于优化整体的复杂度变化。最后，我们讨论了强化学习算法分析技术的挑战。

Sep, 2023

深度强化学习中动态间隔限制的行动空间用于避障

本篇论文研究了在动态障碍物路径规划中存在的区间限制问题，提出了两种方法，分别扩展了参数化强化学习和 ConstraintNet 以处理任意数量的区间，结果表明，在无限制约束的情况下，动作值的离散掩码是唯一有效的方法，在学习到约束时，则需要根据具体任务选择使用投影、掩码或 ConstraintNet 修改。

Jun, 2023

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

FLARE: 使用通用对抗遮罩对深度强化学习代理进行指纹识别

我们提出了 FLARE，这是第一种指纹机制，用于验证一个可疑的深度强化学习（DRL）策略是否是另一个（受害）策略的非法副本。

Jul, 2023

深度策略梯度的深入探讨

研究了深度策略梯度算法的行为如何反映驱动其发展的概念框架，并提出了对最先进方法的细粒度分析。结果表明，深度策略梯度算法的行为经常偏离其驱动框架所预测的行为，这表明了我们对当前方法的了解不足，并提示需要超越当前基准中心的评估方法。

Nov, 2018

针对状态观测的鲁棒深度强化学习对抗扰动

通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法，并在多个强白盒对抗攻击中测试，我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。

Mar, 2020

不良习惯：强化学习中的政策混淆和轨迹外泛化

在本文中，我们提供了对强化学习代理人的策略混淆现象的数学描述，并通过一系列示例展示了它何时发生以及如何发生。

Jun, 2023