Oct, 2018

使用卷积神经网络扩展强化学习中的全目标更新

TL;DR通过卷积神经网络、全目标更新算法和距离图,替换具有随机行为的探索策略,能够在蒙特祖玛复仇和超级马里奥全明星游戏中产生更好的探索轨迹。