从老虎机反馈中学习：现有技术综述

Sep, 2019

从老虎机反馈中学习：现有技术综述

Learning from Bandit Feedback: An Overview of the State-of-the-art

Olivier Jeunen, Dmytro Mykhaylov, David Rohde, Flavian Vasile, Alexandre Gilotte...

TL;DR本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法，并比较了它们在 RecoGym 模拟环境中的实证表现。

Abstract

In machine learning we often try to optimise a decision rule that would have worked well over a historical dataset; this is the so called empirical risk minimisation principle. In the context of learning from recommende

machine learning empirical risk minimisation recommender system counterfactual risk minimisation bandit feedback

发现论文，激发创造

反事实风险最小化：从带状反馈中学习

开发了一种学习原则和一种有效算法，用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法，用于学习结构化输出预测的随机线性规则。

Feb, 2015

基于 Bandit 反馈的三种训练方法

本文综述了机器学习在推荐系统日志中的训练方法，并在 RecoGym 仿真环境中进行了实验。三种不同的训练方法分别是模型奖励预测，历史推荐分布调整和倾向性分数逆向估计，并探讨了它们的优缺点和性能表现。

Apr, 2019

贝叶斯对抗性风险最小化

提供了一种贝叶斯视角的数学方法，支持使用 logged bandit feedback 进行离线学习，提出了一种新的 generalization bound 来估算社会可接受的风险，并引入了一种新的正则化技术来避免过拟合。

Jun, 2018

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

使用多个记录器生成的日志赌器反馈进行有效评估

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

神经网络半反事实风险最小化

提出了基于反事实风险最小化和反向倾向得分估计器的方法以最小化风险，尝试解决某些样本的奖励反馈缺失的问题，并针对该问题提出了正则化的反事实风险最小化算法和基于生成伪奖励的算法。

Sep, 2022

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

学习于极端赌博反馈

本文介绍了一种名为 POXM 的算法，该算法以选择性的重要性采样器为基础，通过选择前 p 个日志策略的行动来学习来自极端的多标签分类 (bandit feedback) 任务中的行为数据，该方法在三个不同的 XMC 数据集上显着提高了性能，并将其与三个竞争方法进行了基准测试。

Sep, 2020

基于自回归生成的后验采样

使用历史数据进行预训练的自回归模型，在新闻推荐任务中通过端到端微调预训练语言模型来处理新闻文章标题文本以提高性能，并在在线决策中展示了能够理解不确定性和主动收集信息以解决环境变化的新的学习算法框架。

May, 2024

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023