BriefGPT.xyz
Jun, 2024
自信自然策略梯度用于$q_π$可实现受限MDP中的本地规划
Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs
HTML
PDF
Tian Tian, Lin F. Yang, Csaba Szepesvári
TL;DR
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了CMDP在线性设置中的多项式样本复杂度。
Abstract
The
constrained markov decision process
(CMDP) framework emerges as an important
reinforcement learning
approach for imposing safety or other critical objectives while maximizing cumulative reward. However, the c
→