Dec, 2015

增大行动差距:强化学习的新算子

TL;DR介绍了一些新的 Q 函数的保优性算子,其中包括局部策略一致性一类的操作,可以有效减缓近似和估计误差对诱导贪心策略的不良影响,并在包括枚举离散问题和连续问题的情形下提供了有效性证明。