Dec, 2017
基因编程用于可解释强化学习策略
Interpretable Policies for Reinforcement Learning by Genetic Programming
Daniel Hein, Steffen Udluft, Thomas A. Runkler
TL;DR通过基于遗传编程的模型驱动批量强化学习,我们介绍了 GPRL 方法,可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程,实验数据表明,相较于符号回归方法,GPRL 能够从现有默认轨迹数据中生产高性能,可解释的强化学习策略。