IJCAIJan, 2022

对比时空抽象概括和比较代理动态

TL;DR本文提出了一种数据驱动、模型无关的技术,用于生成一个易于人理解的摘要,概括一个演变动力系统(如控制代理的学习过程)中的显著对比要点。该技术根据信息论差异度沿时间和空间维度对转换数据进行聚合,并以图形和文本通信方法为辅助,对连续状态空间下的深度强化学习代理的学习历史进行摘要。我们期望我们的方法能够补充现有的代理可解释性技术。