Jan, 2013

学习部分可观测环境的有限状态控制器

TL;DR本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法,具体探讨在部分可观测的MDP问题中,基于随机梯度下降的VAPS算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问题,通过实证研究验证了该算法在补偿每个时间步上的不可观测性方面发挥了良好的效果。