Dec, 2020

改进的 MDPs 增量自主探索的样本复杂度

TL;DRDisCo 算法采用新颖的基于模型的方法,通过同时发现新的状态和提高计算目标策略的模型估计的准确性来达到对未知环境进行探索的目的,并在任何有成本限制的最短路径问题中返回一个接近于最优解的策略。