BriefGPT.xyz
Ask
alpha
关键词
action masking methods
搜索结果 - 1
排除无关因素:通过连续动作屏蔽集中增强学习
本研究论文中,我们提出了三种连续动作屏蔽方法,以精确地将动作空间映射到与状态相关的相关动作集合,从而确保只有相关动作被执行,提高增强学习代理的可预测性,并使其在安全关键应用中得到应用。实验结果显示,这三种动作屏蔽方法比没有动作屏蔽的基线方法
→
PDF
a month ago
Prev
Next