Dec, 2017

基因编程用于可解释强化学习策略

TL;DR通过基于遗传编程的模型驱动批量强化学习,我们介绍了 GPRL 方法,可以从现有的默认状态 - 动作轨迹样本中自主学习策略方程,实验数据表明,相较于符号回归方法,GPRL 能够从现有默认轨迹数据中生产高性能,可解释的强化学习策略。