长期离线策略评估与学习

Apr, 2024

Long-term Off-Policy Evaluation and Learning

Yuta Saito, Himan Abdollahpouri, Jesse Anderton, Ben Carterette, Mounia Lalmas

TL;DR使用只有历史和短期实验数据的可行方法准确估计算法的长期结果

Abstract

short- and long-term outcomes of an algorithm often differ, with damaging downstream effects. A known example is a click-bait algorithm, w

algorithm long-term outcome a/b test surrogacy short- and long-term outcomes

发现论文，激发创造

以长期成果为目标

利用双重稳健方法对渐进流失管理策略进行长期结果的预测和优化，使用缺失的长期结果推断优化政策，使用先前实验获取数据评估该方法的有效性，并使用第二个实验执行有效的目标政策，取得了 4-5 百万美元的总净正收益。

Oct, 2020

平衡短期和长期回报的政策学习

提出了一种新的框架，用于学习有效平衡长期和短期回报的最优策略，通过推导估计器的一致性、渐近正态性和半参数效率界限，揭示了短期结果如若关联，将有助于改善长期回报的估计器，基于所提出的估计器，发展了一种基于原则的策略学习方法，并推导出与所学策略相关的遗憾和估计误差的收敛速率，通过大量实验证明了所提方法的实用性。

May, 2024

基于帕累托最优的短期与长期治疗效果估计和策略学习

该论文研究了 Pareto 最优估计和政策学习方法，用于识别最有效的治疗方法，通过权衡短期和长期效果最大化总奖励，解决多目标优化和冲突问题。

Mar, 2024

反事实学习方法的大规模验证：一个测试平台

本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Dec, 2016

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023

评估和基准化离策略评估的风险收益权衡

评估线下记录数据所使用的反事实政策的有效性，并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡，该指标已被集成到开源软件 SCOPE-RL 中，实证研究对不同评估器和强化学习任务进行了全面的基准测试，并提出了几个对未来 OPE 研究有启示的有趣方向和建议。

Nov, 2023

强化学习离线策略评估的实证研究

通过实验基准和实证研究，我们提供了针对强化学习中的离线策略评估（OPE）的实验基准和实证研究，重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件，以研究不同属性对方法性能的相互作用，并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件（COBS）是开源的，并邀请感兴趣的研究人员进一步贡献。

Nov, 2019

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023