Sep, 2017

批量强化学习在部分观测下的过拟合和渐进偏差

TL;DR通过对有限数据情况下的渐近偏差与过拟合的权衡分析,本文探讨了在强化学习中的部分可观测性,通过较小的状态表示减少过拟合的风险,最终通过理论结论及实验结果验证了前述结论。