Dec, 2009

利用预测状态表示关闭学习和规划循环

TL;DR本文提出并演示了一种精确学习环境模型的新算法,该算法从行动-观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。