Mar, 2025
通过将策略提炼为程序来评估可解释的强化学习
Evaluating Interpretable Reinforcement Learning by Distilling Policies
into Programs
TL;DR本研究解决了缺乏人类参与的可解释性评估方法的问题,提出了一种基于可模拟性的评估方法来评价强化学习策略的可解释性。研究结果表明,提高可解释性并不一定会降低性能,有时甚至可以提升性能,同时没有一种策略类别在不同任务中能最好地平衡可解释性和性能。因此,研究者需要有效的方法来比较不同策略的可解释性。