Jun, 2024
自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划
Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs
Tian Tian, Lin F. Yang, Csaba Szepesvári
TL;DR这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。