离线策略评估中的统计自举法用于不确定性估计

Jul, 2020

离线策略评估中的统计自举法用于不确定性估计

Statistical Bootstrapping for Uncertainty Estimation in Off-Policy Evaluation

Ilya Kostrikov, Ofir Nachum

TL;DR本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Abstract

In reinforcement learning, it is typical to use the empirically observed transitions and rewards to estimate the value of a policy via either model-based or Q-fitting approaches. Although straightforward, these t

reinforcement learning value estimation statistical bootstrapping confidence interval policy

发现论文，激发创造

通过引导误差减少稳定离轨策略 Q 学习

该研究针对离线策略评估的弱点，探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error，提出了一种名为 BEAR 的实用算法，在不同的离线策略分布上都表现出较强的鲁棒性。

Jun, 2019

基于启发式策略评估的自举式 Q 评估优化

本文探讨了自举法在强化学习中的应用和如何提高自举法的计算效率，使用 FQE 方法进行策略评估，并用数值实验评估自举法在强化学习中的潜力。

Feb, 2021

在线估计和推断：强化学习中鲁棒政策评估

我们在强化学习中开发了一种在线鲁棒的策略评估过程，并基于其巴哈多表示建立了我们估计器的极限分布。此外，我们还开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了一种更多功能和可靠性的方法。最后，我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。

Oct, 2023

CoinDICE：离线策略下置信区间估计

本研究提出了一种新的算法 CoinDICE，用于估计目标策略的价值的置信区间，有效地解决了强化学习中关于行为无关离线评估的问题。

Oct, 2020

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

通过置信区间和假设检验对随机森林中的不确定性进行量化

本文提出针对机器学习集成方法的正式统计推断程序，重点在于利用样本的子样本进行 U - 统计的预测，进而提供置信区间，以及作为检验功能、估计方差等应用。

Apr, 2014

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022