Sep, 2023

带理由推断的优势演员 - 评论家算法:从探索性视角解释代理行为

TL;DR本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR,通过预定义和分类行为的目的,A2CR 自动生成了更全面、可解释的决策模式,从而提供了一系列功能,如基于目的的关键性、早期故障检测和模型监督,以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估,发现随着强化学习算法的探索程度加深,Reasoner 预测的标签比例在 “Breakout” 中降低,而在 “Hovering” 中增加。此外,基于目的的关键性更具针对性和可理解性。