Nov, 2021
状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch
Shangtong Zhang, Remi Tachet, Romain Laroche
TL;DR本文研究离线策略演员 - 评论家算法的全局最优性和收敛速度,通过使用近似和随机更新步骤,避免了稀疏性带来的问题,并且在文中基于均匀收缩性质,去掉相关分析的限制条件。