Jan, 2014

拓扑值迭代算法

TL;DR提出了两种优化的 MDP 算法,分别是基于拓扑序列的拓扑值迭代算法 (TVI) 和基于聚焦拓扑值迭代算法 (FTVI),前者使用拓扑排序来备份状态,后者通过启发式搜索来消除次优行动。在多个领域的多个测试中,FTVI 在效率上都明显优于其他算法。