Mar, 2022

可读行为的政策规范化

TL;DR本文提出了一种从可观测模型角度注入易解释性行为,以实现在线可解释性的方法,不需要修改学习算法的组件,而是通过对策略的规范化使决策边界对易读性产生影响,以便支持使用者理解和观察 RL 机制。