Jan, 2019

强化学习中的价值函数多面体

TL;DR该研究论文探讨了有限状态动作 Markov 决策过程中价值函数空间的几何和拓扑性质,发现其形状为一个多面体,并介绍了与策略和价值函数之间的结构关系以及利用可视化方法来增强加强学习算法动态学习的理解。