Aug, 2022

强化学习代理策略理解与可视化框架

TL;DR本研究提出了一个框架,用于学习顺序决策任务的可理解模型,通过时间逻辑公式表征代理策略,并使用一个嵌入方法对代理足迹进行聚类,得出在不同的聚类中解释代理策略的逻辑公式,通过编写一个特征提取器和一个可视化工具,对在 StarCraft II 中的战斗场景进行了评估,实验结果表明,本框架可以将代理足迹分为不同的行为组,并为每个行为组提供一致、有意义且易于理解的策略描述。