Nov, 2018

VIREL:一种变分推断框架的强化学习

TL;DR提出一种新的基于概率模型的强化学习方法VIREL,通过应用参数化的动作值函数来总结底层MDP系统的未来动态,使VIREL具有KL散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对VIREL应用变分期望最大化方法,我们表明可以将Actor-critic算法简化为期望最大化,其中策略改进对应E步骤,策略评估对应M步骤,最后,我们展示了来自这个家族的Actor-critic算法在几个领域优于基于软值函数的最新方法。