离线政策选择对强化学习的样本效率何时有效？

Dec, 2023

离线政策选择对强化学习的样本效率何时有效？

When is Offline Policy Selection Sample Efficient for Reinforcement Learning?

Vincent Liu, Prabhat Nagarajan, Andrew Patterson, Martha White

TL;DR离线强化学习中的政策选择，样本效率，离线政策评估，以及贝尔曼误差估计等方面的研究。

Abstract

offline reinforcement learning algorithms often require careful hyperparameter tuning. Consequently, before deployment, we need to select amongst a set of candidate policies. As yet, however, there is little understanding about the fundamental limits of this offline →

offline reinforcement learning policy selection sample efficiency off-policy policy evaluation bellman error estimation

发现论文，激发创造

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

OPERA：多个估计器加权汇总的离线自动策略评估

提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。

May, 2024

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

学习 Bellman 完整表示以进行离线策略评估

该研究提出了一种名为 “BCRL” 的算法，用于学习线性 Bellman 完备的表示，并用于离线策略评估，同时在图像基础的连续控制任务中表现出较好的性能。

Jul, 2022

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

无需超参数的离线强化学习策略选择

本文研究离线强化学习中选择不同训练算法所产生的策略和价值函数的方法，通常需要超参数调整，已有的离线评估方法会产生鸡和蛋的困境，因此我们提出了一个基于 BVFT 的无超参数调整策略选择算法，并结合 OPE 来解决连续动作领域中出现的演员批评家性能降低的问题，并得到 Q 函数为基础的 OPE 的超参数调整方法。

Oct, 2021

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

强化学习的本质高效、稳定和有界离线策略评估

本文提出了一种基于经验似然的 OPE 估算器，相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率，并满足自归一化重要性抽样的稳定性和有界性。

Jun, 2019