Epsilon 非贪婪：通过均匀数据进行无偏推荐的赌博机方法

Oct, 2023

Epsilon 非贪婪：通过均匀数据进行无偏推荐的赌博机方法

Epsilon non-Greedy: A Bandit Approach for Unbiased Recommendation via Uniform Data

S.M.F. Sani, Seyed Abbas Hosseini, Hamid R. Rabiee

TL;DR为了纠正推荐系统中的自反馈偏差，该研究提出了一个基于环境的多臂赌博机框架，使用少量均匀收集的数据来学习无偏估计器，并重点关注模型理解有限的项目，以生成改进的训练数据，有效解决了自反馈偏差问题。通过使用提出的训练方案进行广泛实验，证明了该模型优于现有的去偏方法。

Abstract

Often, recommendation systems employ continuous training, leading to a self-feedback loop bias in which the system becomes biased toward its previous recommendations. Recent studies have attempted to mitigate thi

recommendation systems bias unbiased estimator training data self-feedback bias

发现论文，激发创造

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

推荐作为治疗方案：去偏见化学习和评估

该研究提供了一种使用因果推论来处理选择偏差的方法，可实现对推荐系统的评估和训练，并获得实际数据上显着改善的预测效果。

Feb, 2016

协同过滤赌博机

本文提出了一种自适应聚类技术，以探索 - 利用策略为基础，用于内容推荐系统中高动态性的推荐领域，该算法利用数据中的喜好模式，具有与协同过滤方法类似的优点，对中等规模的真实世界数据集进行了实证分析，表现出可扩展性和预测性能提高。

Feb, 2015

推荐系统与人的交互

该研究旨在了解推荐算法对未来用户数据的影响，通过提出一个简单模型，表明忽略这个反馈循环将导致非一致性评估器，因此验证了我们的结论。

Mar, 2017

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

在去偏推荐中利用少量无偏评级平衡未观察到的混杂因素

本文提出了一种理论上保证的模型无关均衡方法，该方法可以针对现有的去偏差方法进行应用，以抵抗未观测到的混淆和模型错误，并通过交替校正学习偏差数据的模型参数，以自适应学习平衡系数，充分利用无偏数据。在实际应用中，该方法证明了其有效性。

Apr, 2023

非偏向性推荐系统学习来自缺失非随机暗示反馈的信息

针对推荐系统中存在的正 - 未标记问题，本研究提出一种理想损失函数和无偏估计器，并进一步提出一个剪切估计器来通过平衡偏差和方差来改进推荐系统的性能。半合成和真实实验表明，该方法在最大化推荐物品相关性方面具有更好的性能，特别是对于在训练数据中很少出现的物品。

Sep, 2019