Nov, 2021

状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析

TL;DR本文研究离线策略演员 - 评论家算法的全局最优性和收敛速度,通过使用近似和随机更新步骤,避免了稀疏性带来的问题,并且在文中基于均匀收缩性质,去掉相关分析的限制条件。