ICMLJan, 2018
软最大熵深度强化学习中的 Stochastic Actor-Critic 算法
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine
TL;DR本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。