Jul, 2022

强化学习策略总结的布尔决策规则

TL;DR该研究提出使用布尔决策规则模型来创建一个后续的基于规则的摘要,从而使强化学习策略可解释;实验结果显示该方法可以用于基于网格世界的 DQN 代理训练并创建简单的规则总结,同时也探讨了其在安全控制和调试 RL 代理时的潜在应用。