自适应数据采集的增强学习离线策略评估

Jun, 2023

自适应数据采集的增强学习离线策略评估

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data

Sunil Madhow, Dan Xiao, Ming Yin, Yu-Xiang Wang

TL;DR本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Abstract

Developing theoretical guarantees on the sample complexity of offline rl methods is an important step towards making data-hungry RL algorithms practically viable. Currently, most results hinge on unrealistic assu

sample complexity offline rl data distribution tmis offline policy evaluation minimax-optimal offline learning

发现论文，激发创造

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

使用重尾分布奖励的鲁棒离线策略评估和优化

这篇论文旨在增强离线强化学习在实际应用场景中具有重尾奖励的鲁棒性。我们提出了两个算法框架 ROAM 和 ROOM，分别用于鲁棒的离线策略评估和离线策略优化。这些框架的核心是将均值中位数方法与离线强化学习相结合，从而能够直接估计值函数估计器的不确定性。理论结果和广泛的实验证明，我们的两个框架在具有重尾奖励分布的日志数据集上优于现有方法。

Oct, 2023

模型基节流离线强化学习的样本复杂度研究

本文提出了一种无需进一步探索的离线强化学习方法，通过精心设计的模型实现了最优的样本复杂度，适合处理数据分布转移和数据覆盖范围受限的情况。

Apr, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

利用离线数据进行在线强化学习

本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL 和脱机 RL 之间的区别。

Nov, 2022

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016