针对离线策略评估的策略自适应估计器选择
提出了一个新的、自适应混合使用一组离线策略评估器的算法,该算法不依赖于显式选择,并证明了该评估器对政策评估具有一致性和几个可取的属性。此外,还证明了与其他方法相比,该评估器可以在医疗保健和机器人技术方面选择更高性能的策略,为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。
May, 2024
本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择,该方法结合了在线交互和记录数据,利用基于贝叶斯优化和策略相似性的内核函数,通过多个基准测试,包括实际机器人应用,证明该方法改进了最新的离线策略评估估计和纯在线策略评估,解决了缺乏在线交互数据的策略选择问题。
Jun, 2021
评估线下记录数据所使用的反事实政策的有效性,并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡,该指标已被集成到开源软件 SCOPE-RL 中,实证研究对不同评估器和强化学习任务进行了全面的基准测试,并提出了几个对未来 OPE 研究有启示的有趣方向和建议。
Nov, 2023
本文提出了用于处理全支撑和有缺陷支撑的日志策略,并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法,并将其应用于优化在线平台的 coupon targeting policies。
Dec, 2022
通过数据集进行离线策略评估是重要但具有挑战性的,本研究提出了一种数据中心的框架用于评估其问题,并且通过对医疗数据集的实证分析验证了其能够评估机器学习和人工专家策略。
Nov, 2023
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020