Feb, 2021

通过自适应多步引导方法为表格型MDPs提供细粒度、依赖于间隙的界限

TL;DR介绍了一种适用于有限时间段的情景式马尔可夫决策过程的无模型算法,Adaptive Multi-step Bootstrap(AMB),通过结合乐观自举法和自适应多步蒙特卡罗推演评估最优Q函数,并选择不被其他操作支配的且置信区间长度最大的合规操作,实现了和亚优化差异和比其他上置信边界算法少的回报总和的暴露。