离线学习的指数平滑

ICMLMay, 2023

Exponential Smoothing for Off-Policy Learning

Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba

TL;DR本文提出了一种对 IPS 进行正则化的方法，并推导出了一个可扩展的双边 PAC-Bayes 泛化界限，该界限适用于标准 IPS，证明了正则化 IPS 的实用性以及性能优越性，并提出了一种可以不需要正则化的区分情形。

Abstract

off-policy learning (OPL) aims at finding improved policies from logged bandit data, often by minimizing the inverse propensity scoring (IPS) estimator of the risk. In this work, we investigate a smooth

off-policy learning inverse propensity scoring regularization pac-bayes performance

发现论文，激发创造

离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究

通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重，我们提出了一个可验证的 PAC-Bayesian 泛化界限，该界限广泛适用于常见的重要性权重规范化方法，从而在单个框架内进行比较。我们的实证结果挑战了常见的认知，证明了标准的 IW 规范化技术的有效性。

Jun, 2024

通过优化概括方法评估推荐策略的离策略算法

我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估，我们证明 LIPS 在非线性奖励和大型抽象空间的场景中明显优于现有的评估方法。

Feb, 2024

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

悲观的脱机政策评估、选择和学习的对数平滑

该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般，覆盖了大多数现有的估计器，并为新估计器的开发铺平了道路。特别地，在类别中寻求最紧密的界的追求激发了一种新的估计器（LS），该估计器对大的重要性权重进行对数平滑。LS 的界证明比所有竞争者都紧，自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了 LS 的多样性和有利性能。

May, 2024

为离线评估学习动作嵌入

本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法，该方法可以减少 IPS 在大规模动作空间中的方差，并扩展了 MIPS 的应用范围，在合成和实际数据上都优于预定义的嵌入和标准基线模型，不需要奖励模型类的假设，并支持使用其他动作信息来进一步提高估计精度。

May, 2023

不确定性感知的离线学习

本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Mar, 2023

模仿正则化的离线学习

本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Jan, 2019

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

离线神经情境臂：悲观、优化和泛化

本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略，提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法，应用随机梯度下降进行在线学习提高计算效率，并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度，同时在一系列的合成和实际问题中表现出了很好的效果。

Nov, 2021

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021