健壮马氏决策过程中高效锐利的离策略评估

Mar, 2024

健壮马氏决策过程中高效锐利的离策略评估

Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes

Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang

TL;DR在环境变化、干扰函数估计不一致和有限样本学习的情况下，本研究旨在评估策略值，并提出了一种扰动模型，可以根据转移观测对传统 MDP 进行边界估计。

Abstract

We study evaluating a policy under best- and worst-case perturbations to a markov decision process (MDP), given transition observations from the original MDP, whether under the same or different policy. This is a

发现论文，激发创造

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法，用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题，并表现出在多个环境中的良好表现。

Jun, 2019

离线评估和策略优化的极小极大值区间

该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用，结合两种不同风格的方法，提出了一个特殊类型的双重稳健方法，解决了偏见问题，同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。

Feb, 2020

稳健性马尔可夫决策过程理论研究：样本复杂度与渐近性

本文研究了鲁棒马尔可夫决策过程的最优鲁棒策略和价值函数的非渐近和渐近性能，并考虑了不同的不确定性集。实验验证了最优鲁棒价值函数在理论和实际应用中均呈现出典型的 √n 比例的渐近正态性。

May, 2021

基于非匹配生成模型的稳健马尔可夫决策过程的策略学习

利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达，并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题，得到了一个近似最优的强健决策。

Mar, 2022

马尔科夫决策过程中的离线风险评估

本研究探讨了在强化学习中应用基于模型的方法改进off-policy risk的估计，构建了第一个适用于MDPs的双重稳健估计器，提高了估计精度并实现了Cramer-Rao方差下界。

Sep, 2022

分布偏移感知的离策略区间估计：一种统一的误差量化框架

我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估，目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析，我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源，揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数，我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间，又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据，不需要假设任何弱依赖条件，通过利用局部超值/鞅结构。在非线性函数近似设置中，理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和OhioT1DM移动健康研究中得到了数值性能的验证。

Sep, 2023

马尔可夫决策过程中的弱分布重叠下的离策略评估

在马尔可夫决策过程的顺序忽略性下，具有两重鲁棒性的方法在离线策略评估中具有良好的性能，通过引入一种截断两重鲁棒估计器，该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。

Feb, 2024

悲观的脱机政策评估、选择和学习的对数平滑

该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般，覆盖了大多数现有的估计器，并为新估计器的开发铺平了道路。特别地，在类别中寻求最紧密的界的追求激发了一种新的估计器（LS），该估计器对大的重要性权重进行对数平滑。LS的界证明比所有竞争者都紧，自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了LS的多样性和有利性能。

May, 2024

潜在MDP中的强化学习是可行的：通过离线策略评估实现在线保证

我们介绍了没有任何附加结构假设的Latent Markov Decision Processes (LMDPs)的第一个样本高效算法，并建立了新的离线评估引理和LMDPs的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题，特别是部分观测环境中，具有重要价值。

Jun, 2024

正向和反向状态抽象用于策略离线评估

本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估，并通过构建基于观察到的MDP的时间反转MDP导出Q函数和边缘化重要性采样比率的充分条件，进而提出一种新颖的两步骤程序，将原始状态空间顺序投影到较小的空间，从而大大简化高基数引起的关联性评估的样本复杂度。

Jun, 2024