Sep, 2023

生成强化学习策略解释的实证研究

TL;DR本文介绍了一组用于政策解释的线性时态逻辑公式,重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示,特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后,提出了未来研究的方向。