马尔科夫决策过程中的离线风险评估
该论文提出了一种基于 Lipschitz 风险函数的离线策略评估框架,使用 OPRA 估算目标策略的 CDF,提供了对任何 Lipschitz 风险集合的插值估计,具有同时保证整个类的有限样本保证,并使用重要性采样和双重稳健估计实例化 OPRA。
Apr, 2021
本文针对强化学习中的离策略评估问题,提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法,该方法通过最小化 DR 估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
在马尔可夫决策过程的顺序忽略性下,具有两重鲁棒性的方法在离线策略评估中具有良好的性能,通过引入一种截断两重鲁棒估计器,该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。
Feb, 2024
本文提供了在可行性前提下,通过在 MIS 目标上施加适当的规范化对离线策略函数估计提供保证,并提供了优化对偶解的确切特征化方法,该解决方案需要由鉴别器类实现,这决定了在值函数学习的情况下数据覆盖假设。
Oct, 2022
该论文使用 CMDP 公式研究了安全强化学习(SRL)问题,在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION(OPDOP)算法,利用最小二乘策略估计和安全探索额外奖励项来估计值函数。
Mar, 2020
本文研究利用概率风险约束的马尔可夫决策过程,通过计算梯度并设计算法实现了局部最优策略,解决了累积成本最小化的顺序决策问题,例子包括最优停止问题和在线营销应用。
Dec, 2015
本文研究带错误状态的马尔可夫决策过程,并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务,实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。
Sep, 2011
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
Feb, 2020
这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL 具有高效性,并且当仅一个因素一致时也具有双重正确性。
Aug, 2019
本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based ExploRation with Approximation(OPERA),能够在多种 MDP 模型中达到最小遗憾的上限。
Sep, 2022