AAAIJan, 2019

引导协变移位进行深度强化学习的离线策略

TL;DR本文介绍了一种针对强化学习中离线学习的校正方法(COP-TD),并通过引入折扣因子解决了非线性函数近似中的问题,进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚,此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。