CoinDICE：离线策略下置信区间估计

Oct, 2020

CoinDICE：离线策略下置信区间估计

CoinDICE: Off-Policy Confidence Interval Estimation

Bo Dai, Ofir Nachum, Yinlam Chow, Lihong Li, Csaba Szepesvári...

TL;DR本研究提出了一种新的算法 CoinDICE，用于估计目标策略的价值的置信区间，有效地解决了强化学习中关于行为无关离线评估的问题。

Abstract

We study high-confidence behavior-agnostic off-policy evaluation in reinforcement learning, where the goal is to estimate a confidence interval on a target policy's value, given only access to a static experience

reinforcement learning off-policy evaluation confidence intervals coindice q-function

发现论文，激发创造

分布偏移感知的离策略区间估计：一种统一的误差量化框架

我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估，目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析，我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源，揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数，我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间，又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据，不需要假设任何弱依赖条件，通过利用局部超值 / 鞅结构。在非线性函数近似设置中，理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和 OhioT1DM 移动健康研究中得到了数值性能的验证。

Sep, 2023

利普希茨价值迭代的异策略区间估计

研究提出了用于获得一般连续情况下离线策略评估的区间界限的可证明正确的方法，该方法基于搜索与观察一致的所有 Lipschitz Q 函数中期望奖励的最大和最小值，进而引入了 Lipschitz 值迭代方法以加紧区间，可以在一定程度上提高部分高风险应用的效率。

Oct, 2020

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

广义离线估计稳定值

通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Feb, 2020

DualDICE：行为无关的折现稳态分布修正估计

本研究提出了一种名为 DualDICE 的算法，用于在强化学习应用中的政策评估和训练过程中，对固定数据集进行修正，从而提高精度和性能。

Jun, 2019

通过正则化拉格朗日算子进行离策略评估

通过将 distribution correction estimation (DICE) 家族的估计器作为相同线性规划的正则化拉格朗日乘子统一起来，我们扩展了 DICE 估计器的空间到新的替代方案，分析了估计器的扩展空间，发现双重解决方案在优化稳定性和估计偏差之间的权衡方面提供了更大的灵活性，并在实践中通常提供更好的估计。

Jul, 2020

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023