Jan, 2017

基于递归卷积神经网络的强化学习

TL;DR使用递归卷积神经网络的值迭代,以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构,通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数,这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法,并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。