基于 Bandit 反馈的高效反事实学习

AAAISep, 2018

Efficient Counterfactual Learning from Bandit Feedback

Yusuke Narita, Shota Yasui, Kohei Yata

TL;DR本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Abstract

What is the most statistically efficient way to do off-policy evaluation and optimization with batch data from bandit feedback? For log da

发现论文，激发创造

本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法，并比较了它们在 RecoGym 模拟环境中的实证表现。

Sep, 2019

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

开发了一种学习原则和一种有效算法，用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法，用于学习结构化输出预测的随机线性规则。

Feb, 2015

提出了一种新的离线策略评估器，能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法，控制偏差 - 方差权衡并降低方差，并成功地将之前的方法统一起来，实现了对实验学习问题信息的更有效利用。

Oct, 2012

在这项研究中，我们利用代理人能够选择获取人工反馈的上下文的事实，引入了离线情境对决贝叶斯臂设置，提出了一种基于上置信界的算法，并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。

Jul, 2023

针对现代市场营销中的一个实际问题，我们提出了一种新的方法来解决策略优化问题，并构建了一种带约束的反事实策略优化模型。我们将奖励估计问题作为带有附加结构的域适应问题，并使用估计器进行带约束优化策略。我们证明了我们的估计程序具有理论误差界，并且我们在合成和真实数据集上证明了该方法明显改善。

Feb, 2019

本文介绍了一种称为 `pessimistic policy optimization` 的算法，用于处理 contextual bandits 中的策略优化问题，并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法，在离线交互日志的基础上进行训练，非常适用于处理连续和离散行为空间的问题。

Jun, 2023

本文扩展了分布鲁棒优化方法，提出了 Counterfactual Risk Minimization 原则的凸重构方法，介绍了通过 DRO 框架构建离线情境强化学习的渐近置信区间，使用了已知的鲁棒估计渐进性结果自动校准置信区间，并呈现了初步实验结果支持我们方法的有效性。

Nov, 2020

提供了一种贝叶斯视角的数学方法，支持使用 logged bandit feedback 进行离线学习，提出了一种新的 generalization bound 来估算社会可接受的风险，并引入了一种新的正则化技术来避免过拟合。

Jun, 2018

将离线学习范式应用于推荐系统和排名应用，提出一个统一的框架，采用等效的均衡基准修正方法来减少估计方差，从而得到方差最优的无偏估计器。

May, 2024