May, 2018

双策略迭代

TL;DR本文提出了 Dual Policy Iteration 的概念,利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来,用于处理各种连续控制马尔可夫决策过程。