Jun, 2024

自信自然策略梯度用于$q_π$可实现受限MDP中的本地规划

TL;DR这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了CMDP在线性设置中的多项式样本复杂度。