Apr, 2018

可编程可解释强化学习

TL;DR提出了一种编程可解释性强的强化学习框架(PIRL),使用高级领域特定编程语言表示策略,提出了基于神经网络生成的策略的可验证和可解释的替代方案,用基于神经网络的NDPS算法来优化PIRL策略,这种策略较容易被解释和验证,实验结果证明,与传统的深度强化学习相比,PIRL策略的轨迹更平滑易于迁移。