Nov, 2023

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

TL;DR我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解,但与线性模型不同,低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法,以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR,其中 H 是每个 episode 的长度,A 是动作空间的容量,d 是表示的维度。在计算方面,我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期,并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知,这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。