Nov, 2023

低秩马尔可夫决策过程中可证明高效的CVaR强化学习

TL;DR我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度τ来最大化条件风险价值(CVaR)。我们在大规模状态空间中使用CVaR RL来拓展推广CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了低秩MDPs中的CVaR RL。低秩MDPs假设底层转移核函数具有低秩分解,但与线性模型不同,低秩MDPs不假设已知特征或状态-动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法,以在CVaR RL中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度Õ((H^7 A^2 d^4) / (τ^2 ε^2))实现ε-最优CVaR,其中H是每个episode的长度,A是动作空间的容量,d是表示的维度。在计算方面,我们为CVaR目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期,并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知,这是第一个在低秩MDPs中可以被证明的有效的CVaR RL算法。