在线匹配：一种用于大规模推荐的实时试错系统

Jul, 2023

在线匹配：一种用于大规模推荐的实时试错系统

Online Matching: A Real-time Bandit System for Large-scale Recommendations

Xinyang Yi, Shao-Chuan Wang, Ruining He, Hariharan Chandrasekaran, Charles Wu...

TL;DR通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Abstract

The last decade has witnessed many successes of deep learning-based models for industry-scale recommender systems. These models are typically trained offline in a batch manner. While being effective in capturing

deep learning recommender systems online learning bandit system content discovery

发现论文，激发创造

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

基于级联赌博机的大规模推荐问题

本研究提出了两种基于线性推广的算法来解决级联赌博问题，主要应用在推荐系统中。通过对算法的评估，发现本文算法表现较为良好，且优于所有基准算法。

Mar, 2016

使用带有依赖臂的多臂老虎机进行在线交互式协同过滤

研究如何考虑物品间的相关性，将物品聚类为不同的组别，并使用基于粒子学习的算法来推断模型的潜在参数和状态，从而开发出一种可以有效地整合现有多臂选择策略的在线交互协作推荐系统。

Aug, 2017

在线矩阵分解推荐的交替线性赌博机算法

本文提出了一种在线矩阵分解推荐算法，结合了线性赌博和交替最小二乘法，通过累积遗憾和平均累积 NDCG 评估算法性能，实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。

Oct, 2018

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

选择哪个 LLM？具有收敛意识的增长式时间赌博的在线模型选择

提出了一种时间递增的强化学习算法 TI-UCB，用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡，通过对分类模型选择和在线选择 LLMs 进行验证，实验证明了该方法提高了模型选择的效率和经济性。

Mar, 2024

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023

在线有限内存神经线性赌博机及其似然匹配算法

本文研究神经线性赌博机，结合深度神经网络的表示能力和置信度估计机制，应用于线性环境赌博机中，通过匹配似然算法与去遗忘性相结合，取得了类似于无限存储方法的性能，而且对于遗忘性表现出了很强的韧性。

Feb, 2021

利用（有偏）信息：带离线数据的多臂老虎机

利用离线数据在随机多臂赌博机的在线学习中进行了改进，提出了一个在线策略 MIN-UCB，在给定非平凡上界的情况下优于 UCB，适当地选择使用离线数据以提高性能，理论和实验结果都表明 MIN-UCB 是一个有效的策略。

May, 2024