Jun, 2020

多元化演员-评论家: 针对样本高效探索的样本感知熵正则化

TL;DR提出了基于样本感知的策略熵正则化方法,以增强传统策略熵正则化方法用于探索的性能;通过利用回放缓存中可获取的样本分布,最大化加权和策略行为分布和缓存中样本行为分布的熵来完成对样本高效的探索。并基于提出的样本感知熵正则化方法,开发出了一个名为多样性演员-评论家算法(DAC)的实用算法,并通过数值实验获得了在增强学习应用中的显著性能优势。