从日志数据中学习隐式探索

Feb, 2010

Learning from Logged Implicit Exploration Data

Alex Strehl, John Langford, Sham Kakade, Lihong Li

TL;DR本研究提供了一种利用非随机探索数据处理上下文匹配、或部分标记的相关问题的方法，可以学习到一个基于历史数据特征的行动选择策略，并通过 Yahoo! 实际数据进行了实证验证。

Abstract

We provide a sound and consistent foundation for the use of \emph{nonrandom} exploration data in "contextual bandit" or "partially labeled" settings where only the value of a chosen action is learned. The primary challenge in a variety of settings is that the exploration policy, in whi

contextual bandit nonrandom exploration data offline data historical data policy learning

发现论文，激发创造

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

重要性加权的线下学习方法

离线策略优化，随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023

上下文广告非平稳策略评估的有效样本处理

提出了一种新的离线策略评估器，能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法，控制偏差 - 方差权衡并降低方差，并成功地将之前的方法统一起来，实现了对实验学习问题信息的更有效利用。

Oct, 2012

利用记录数据的主动学习

该研究考虑使用记录数据的主动学习，旨在学习整个人口的分类器，同时将记录数据用于引导试验设计，并改进现有基于不一致性的主动学习算法。

Feb, 2018

分布式鲁棒批次情境式赌博机

本文提出了一种利用历史观测数据解决偏移环境的分布鲁棒性策略学习算法，该算法通过提出的策略评估方案和基于均匀收敛理论的性能保证实现对敌对干扰和未知协变量转移的稳健性，并在真实世界数据集中展示了该方法的应用。

Jun, 2020

模仿正则化的离线学习

本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Jan, 2019

使用多个记录器生成的日志赌器反馈进行有效评估

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

随机情境线性赌博机的实验设计

通过设计一种单一的随机非反应策略来探索，该策略可以在一些批处理上下文可用的情况下收集良好的数据集，从中提取近似最优策略，通过理论分析和实验研究在合成和现实世界数据集上验证。

Jul, 2021

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

悲观的脱机政策评估、选择和学习的对数平滑

该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般，覆盖了大多数现有的估计器，并为新估计器的开发铺平了道路。特别地，在类别中寻求最紧密的界的追求激发了一种新的估计器（LS），该估计器对大的重要性权重进行对数平滑。LS 的界证明比所有竞争者都紧，自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了 LS 的多样性和有利性能。

May, 2024