May, 2019

通过正则流在无策略算法中利用探索

TL;DR通过使用正则化流,将软 actor-critic(SAC)方法扩展到更丰富的概率分布类别,能够显着提高策略的探索性能,同时使用更小的策略表示,增加了参数效率。