Apr, 2018

基于特征聚合和深度强化学习的调查与一些新实现

TL;DR本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题,其状态与特征相关。我们讨论了这种聚合的性质和可能的实现,其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为,通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数,从而潜在地导致更有效的政策改进。