反事实风险最小化：从带状反馈中学习

Feb, 2015

反事实风险最小化：从带状反馈中学习

Counterfactual Risk Minimization: Learning from Logged Bandit Feedback

Adith Swaminathan, Thorsten Joachims

TL;DR开发了一种学习原则和一种有效算法，用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法，用于学习结构化输出预测的随机线性规则。

Abstract

We develop a learning principle and an efficient algorithm for batch learning from logged bandit feedback. This learning setting is ubiquitous in online systems (e.g., ad placement, web search, recommendation), where an algorithm makes a prediction (e.g., ad ranking) for a given input

logged bandit feedback propensity scoring counterfactual risk minimization policy optimizer for exponential models stochastic linear rules

发现论文，激发创造

从老虎机反馈中学习：现有技术综述

本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法，并比较了它们在 RecoGym 模拟环境中的实证表现。

Sep, 2019

贝叶斯对抗性风险最小化

提供了一种贝叶斯视角的数学方法，支持使用 logged bandit feedback 进行离线学习，提出了一种新的 generalization bound 来估算社会可接受的风险，并引入了一种新的正则化技术来避免过拟合。

Jun, 2018

神经网络半反事实风险最小化

提出了基于反事实风险最小化和反向倾向得分估计器的方法以最小化风险，尝试解决某些样本的奖励反馈缺失的问题，并针对该问题提出了正则化的反事实风险最小化算法和基于生成伪奖励的算法。

Sep, 2022

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

分布式稳健的反事实风险最小化

本文介绍了使用分布式鲁棒优化 (DRO) 解决交叉事实风险最小化 (CRM) 问题的想法，并证明了 DRO 是对策反决策的一种有原则的工具。我们提出了使用 Kullback-Leibler 马氏距离作为 CRM 中不确定性的代替方法，并基于这一方法提出了一种新的鲁棒对策反目标。通过实验证明，在实践中使用其他不确定性度量具有重要意义。

Jun, 2019

推荐系统的对抗性反事实学习和评估

本论文提出了一种基于极小值 - 最大值经验风险的新型推荐算法，该算法使用属于敌对领域的候选模型对反驳所述推荐模型中的潜在暴露机制的对手进行了建模，并使用模拟研究验证了此方法在推荐设置的不同方面的优越性。

Nov, 2020

基于确定性日志的旁路反事实学习：统计机器翻译案例研究

本文解决了在风险规避商业语言翻译模型确定性记录历史性翻译，并使用这些记录进行反事实学习过程中存在的问题，实现了从确定性 bandit 日志中进行反事实学习并取得了 2 BLEU 点的提高。

Jul, 2017

反事实学习方法的大规模验证：一个测试平台

本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Dec, 2016

基于 Bandit 反馈的三种训练方法

本文综述了机器学习在推荐系统日志中的训练方法，并在 RecoGym 仿真环境中进行了实验。三种不同的训练方法分别是模型奖励预测，历史推荐分布调整和倾向性分数逆向估计，并探讨了它们的优缺点和性能表现。

Apr, 2019