Jul, 2020

可证明的好的无须强探索批量强化学习

TL;DR本文介绍了一种基于Bellman备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示MDP示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。