IJCAIMay, 2023

可解释多智能体强化学习应用于时间查询

TL;DR该研究提出了一种基于 PCTL 逻辑公式和概率模型检验的方法,用于为多智能体强化学习系统(MARL)生成策略级对比解释以回答时间用户查询,以帮助用户理解复杂环境中 MARL 代理的新兴行为,并能够解释为何用户查询不可行。实验表明,该方法有效提高了用户的性能与满意度。