Jun, 2024

自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划

TL;DR这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。