Jul, 2020

可证明的好的无须强探索批量强化学习

TL;DR本文介绍了一种基于 Bellman 备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。