Jun, 2019

使用规范化流策略改进软演员 - 评论家算法的探索能力

TL;DR该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型,增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。