ICMLOct, 2017

部分可观测深度强化学习的后悔最小化

TL;DR本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法,能够有效处理部分观测状态,并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。