Jun, 2023

关于自然演员 - 评论家算法与双层神经网络参数化的全局收敛

TL;DR本文探讨利用神经网络代表评论家的自然演员评论算法的研究,并建议了一种涉及通过凸优化问题估计每个迭代中的 Q 函数的 2 层评论家参数化的自然演员评论算法,证明了我们提出的方法达到了样本复杂度的~O (1 / (ε^4 (1-γ)^4)),适用于可数状态空间,不需要线性或低秩结构的 MDP。