低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

Nov, 2023

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

Provably Efficient CVaR RL in Low-rank MDPs

Yulai Zhao, Wenhao Zhan, Xiaoyan Hu, Ho-fung Leung, Farzan Farnia...

TL;DR我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Abstract

We study risk-sensitive reinforcement learning (RL), where we aim to maximize the Conditional Value at Risk (CVaR) with a fixed risk tolerance $\tau$. Prior theoretical work studying risk-sensitive RL focuses on the tabular Markov Decision Processes (MDPs) setting. To extend CVaR RL to

risk-sensitive reinforcement learning conditional value at risk (cvar)low-rank mdps function approximation upper confidence bound (ucb)

发现论文，激发创造

可证明高效的迭代 CVaR 强化学习与函数逼近

使用线性和一般函数逼近，对风险敏感的强化学习（RL）进行了研究，提出了名为 ICVaR-RL 的新的风险敏感 RL 公式，为每个决策步骤提供了保证安全性的原则方法，并提出了 ICVaR-L 和 ICVaR-G 两个高效算法，以及对 CVaR 算子的高效逼近，适应 CVaR 的特征的新的岭回归，以及精炼的椭球潜力引理。

Jul, 2023

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

具有条件风险价值的鲁棒风险敏感强化学习

使用固定过渡概率的标准马尔科夫决策过程（MDPs）的替代方案，鲁棒马尔科夫决策过程（RMDPs）在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性，分析了预先设定的不确定性集合和状态动作相关的不确定性集合，提出了风险度量 NCVaR 和相应的优化方法，并通过仿真实验验证了该方法的有效性。

May, 2024

风险敏感和鲁棒决策：CVaR 优化方法

本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法，采用风险敏感条件价值风险 (CVaR) 目标，同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用，其理论分析和数值实验结果均证明了该方法的实用性和有效性。

Jun, 2015

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

具有分位风险标准的风险受限强化学习

本文研究利用概率风险约束的马尔可夫决策过程，通过计算梯度并设计算法实现了局部最优策略，解决了累积成本最小化的顺序决策问题，例子包括最优停止问题和在线营销应用。

Dec, 2015

长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程

本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题，利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性，提出了一种策略迭代算法并进行数值实验以证明主要结论。

Oct, 2022

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019