Mar, 2018

前向-后向强化学习

TL;DR通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在Gridworld和汉诺塔游戏中进行了实验验证。