Apr, 2017

斯坦变分策略梯度

TL;DR本文提出了一种最大熵策略优化框架,该框架明确地鼓励参数探索,并表明这个框架可以被归约为一个贝叶斯推理问题。然后,我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG),该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上,我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。