Jun, 2024

排除无关因素:通过连续动作屏蔽集中增强学习

TL;DR本研究论文中,我们提出了三种连续动作屏蔽方法,以精确地将动作空间映射到与状态相关的相关动作集合,从而确保只有相关动作被执行,提高增强学习代理的可预测性,并使其在安全关键应用中得到应用。实验结果显示,这三种动作屏蔽方法比没有动作屏蔽的基线方法能够获得更高的最终奖励并更快地收敛。