模仿正则化的离线学习

Jan, 2019

Imitation-Regularized Offline Learning

Yifei Ma, Yu-Xiang Wang, Balakrishnan, Narayanaswamy

TL;DR本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Abstract

We study the problem of offline learning in automated decision systems under the contextual bandits model. We are given logged historical

offline learning automated decision systems contextual bandits policy improvement cross-entropy loss

发现论文，激发创造

重要性加权的线下学习方法

离线策略优化，随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

原始 Wasserstein 模仿学习

本文提出了一种新的基于 Primal Wasserstein Imitation Learning（PWIL）算法的 Imitation Learning method，通过离线推导奖励函数，在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是 Wasserstein 距离，而非常用的性能代理。

Jun, 2020

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

带有不足支持的离线策略赌博机

本文针对每日实际情况中，由于行动空间的限制，不能在所有情境下为每一个行动确定非零概率而产生的不足支持数据的问题，提出在限制行动空间、奖励外推和限制策略空间三个方法领域内提出的 IPS 补丁方法，分析了三种方法的统计性和计算性属性，并进行实证研究，提供了 I PS 方法学习时的实践指南。

Jun, 2020

在线策略学习与矩阵补全的推理

基于矩阵完成赌徒问题 (MCB) 和在线梯度下降算法，探索碎状历史特征的在线决策问题。研究比较不同勘探概率和步长调度下的策略学习和后悔表现，同时研究基于反向反比加权 (IPW) 的去偏方法和在线策略推理的通用框架，通过实验验证理论结果，应用于旧金山停车定价项目数据，取得了引人注目的发现和超过基准策略的表现。

Apr, 2024

悲观的脱机政策评估、选择和学习的对数平滑

该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般，覆盖了大多数现有的估计器，并为新估计器的开发铺平了道路。特别地，在类别中寻求最紧密的界的追求激发了一种新的估计器（LS），该估计器对大的重要性权重进行对数平滑。LS 的界证明比所有竞争者都紧，自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了 LS 的多样性和有利性能。

May, 2024

离线学习的指数平滑

本文提出了一种对 IPS 进行正则化的方法，并推导出了一个可扩展的双边 PAC-Bayes 泛化界限，该界限适用于标准 IPS，证明了正则化 IPS 的实用性以及性能优越性，并提出了一种可以不需要正则化的区分情形。

May, 2023

离线监督正则化的方式复制人类复杂对话策略

通过离线模仿学习和状态转移信息的利用，结合正则化技巧进行有效地优化，可使模型更好地完成基于对话系统的任务。

May, 2023

从日志数据中学习隐式探索

本研究提供了一种利用非随机探索数据处理上下文匹配、或部分标记的相关问题的方法，可以学习到一个基于历史数据特征的行动选择策略，并通过 Yahoo! 实际数据进行了实证验证。

Feb, 2010