Mar, 2016

探索性梯度提升用于复杂领域强化学习

TL;DR该研究提出一种非参数函数逼近器和基于状态抽象和信息获取的不确定性探索策略来处理高维环境下的强化学习挑战,并在 Minecraft 游戏中进行了验证,结果表明这两种技术结合起来在标准强化学习任务中表现出色并在高维观察空间的任务中优于基准算法,这为强化学习技术在真实世界中的应用提供了一个有力的方法。